인공지능(AI) 개인식별시장 선점 경쟁이 불붙었다...글로벌 공룡들, 한국시장 진출﻿﻿

그러나 우리기업은 정부의 규제개선 미흡으로 현재상태로는 잠재적 범죄자, '식별 정보 동의 없이...'



내용	인공지능(AI)이 우리생활 깊숙이 파고들기 시작하면서 인공지능(AI)의 개인식별사업이 빠른 속도로 성장하고 있지만 우리는 정부의 제도 개선 미비로 산업화에 한계를 갖고 있다는 평가다. 정부와 대통령직속 4차산업혁명위원회는 지난달 26일 ‘데이터산업 활성화 전략’을 의결하고, 4차 산업혁명의 원료인 데이터에 대한 규제완화를 시작했지만 미국, 중국, 일본에 비해 여전히 규제가 지나치기 때문이다. 특히 정부가 ‘마이 데이터’ 시범 사업을 통해 개인 동의를 전제로 개인 정보를 기업이 활용할 수 있게 한 것은 정보 제공의 단계를 처음부터 시작한다는 점에서 오히려 스타트업(초기 벤처)와 대기업간 양극화를 부추길 것이란 우려가 나온다. 마이 데이터 사업은 내가 건강보험관리공단(기관)등에서 내 의료정보를 직접 내려받아 제3자(병원 등)에 제공해 빅데이터 분석을 의뢰한 뒤 실시간 건강관리를 받는 것이다. 이에 따라 복잡한 제도 대신 △개인임을 알 수 없는 ‘비식별정보’는 동의 없이 활용할 수 있게 하고 △동의 도입 시 사람마다 제각각인 생각의 차이를 반영해 사전동의형(Opt-In), 포괄동의(One Click Consent)+사후동의배제형(Opt-Out) 등을 선택할 수 있게 해야 한다는 지적이 나온다. 이런 가운데 5월25일부터 개인정보보호법(GDPR)을 시행하기 시작한 유럽이 주는 시사점이 대단히 크다. GDPR에서 주목해야 할 부분은 개인정보 활용하기 위해서는 가명화, 익명화 등 비식별화 조치가 수반돼야 한다는 점이다. 우리나라도 GDPR에 대응하기 위해 적정성 평가를 추진하고 있다. 하지만 국내에서는 GDPR이 정의하고 있는 가명 처리에 대한 법적 정의도 정립되지 않은 상태다. 비식별화 조치에 대한 국제 표준은 올해 마련될 것으로 전망된다. 이에 국내에서는 개인정보 처리에 있어 활용과 보호라는 두 가지 관점에서 정부와 학계, 산업계의 활발한 논의가 이뤄지고 있다. 출처: 구태언 변호사(태크앤로) ■ 개인식별 사업이 뜬다..글로벌 공룡들, 한국 시장 진출 4차 산업혁명은 겉으론 거창해 보이나 실은 출입국 관리, 온라인 범인 추적, 가사 서비스 로봇, 자율주행차 등에서 개인을 식별해 범죄를 해결하거나개인화 서비스를 제공하는 것이다. 이때 정확한 개인 식별이 안 되면 사회 안전망이 붕괴되고 식구를 못 알아보는 로봇이나 내게 편의나 혜택을 주지 않는 서비스를 외면하게 된다. 지금은 음악을 듣거나 날씨나 뉴스를 듣는 인공지능(AI) 스피커가 ‘아리아, 비트코인 넣어줘’, ‘아리아, 내 카톡 읽어줘’ 등 개인화로 바뀌고 있는 것이다. 실제로 구글의 ‘행동인식 프로젝트’나 마이크소프트(MS)의 스피치 API(응용프로그램인터페이스)는 물론, 중국 기업 이플라이텍도 개인식별 기능에 올인하고 있다. 이플라이텍은 중국 인공지능(AI) 개발회사로 한글과컴퓨터와 제휴해 국내 진출을 추진 중이다. 작년 11월 중국 과학기술부 ‘차세대 인공지능 개발 사업’에 선정된 기업이기도 하다. ■ 우리 기업은 잠재적 범죄자…비식별 정보 동의 없이 쓰게 하라, 정부 규제 개선 미흡 그런데 이 같은 개인화된 AI서비스에서 성공하려면 식별기술의 고도화가 전제돼야 하고, 식별기술이 발전하려면 기업은 개인 동의를 전제로 광범위한데이터를 수집해 분석할 수 있어야 한다. 우리 기업들은 어떨까. AI를 개발 중인 대다수 기업들이 잠재적 범죄자이거나 실제로 개인임을 밝혀내는 나쁜 짓을 해도 처벌이 어려운 모순적 상황이라는 평가다. 구태언 태크앤로 대표 변호사(4차산업혁명위원회 전문위원)는 “현행 법에서 기업은 개인을 알아보지 못하게 만드는 비식별화 조치를 통해 데이터를 활용하는데 기술의 진보로 여전히 법률적 위험이 존재한다”며 “거꾸로 정부의 ‘비식별조치 가이드라인’은 비식별조치이후 (기업이) 개인을 식별해도 처벌할 수 없는 한계가 있다”고 밝혔다. 어떤 기업이 비식별된 정보로 식별 행위를 했을 때, 최초의 식별행위는 이미 수집한 비식별정보를 대상으로 하기 때문에 개인정보보호법상 동의 없는 ‘수집’으로 볼 수 없어, “그때 그때 달라요”라는 예측 불가 상황이 발생한다는 의미다. 이에 따라 구 변호사는 차라리 AI 시대 국내 개인정보 보호 법제를 형식주의 대신에 실용적이고 합목적적으로 바꿔야 한다고 제안했다. △개인정보를 개인임을 알 수 있는 식별정보와, 알 수 없는 비식별정보로 나눠 식별정보에만 동의제도를 적용하고 △개인 동의역시 무조건 사전동의 대신 포괄동의나 사후동의배제 등 개인별로 선택하게 만들자는 것이다. 그는 “시민단체가 전 국민을 대표할 순 없으니 동의를 사람마다 달리 할 수 있도록 선택권을 줘야 한다”며 “최근 발표된 정부의 데이터 규제완화는 미흡하다. AI서비스엔 국경이 없어 자칫 우리보다 똑똑한 AI서비스가 들어오면 우리나라는 정보 좀비국가가 될 수 있다”고 우려했다. 지난달 29일 데이터산업 활성화 토론회를 연 오세정 의원(바른미래당)은 “지난 4월 대표발의한 비식별 개인정보의 활용에 대한 법안 발의에도 현장에는 데이터 활용을 가로막는 장벽이 여전히 존재한다”며 “데이터 활용이 제약되고 있는 문제 해결을 위해 바른미래당 차원에서 지속 노력 하겠다”고 밝혔다. ■ 급속히 성장하고 있는 개인정보 비식별화 시장 유럽연합(EU)의 개인정보보호법(GDPR)이 지난 5월 25일 본격 시행됐다. GDPR은 자연인에 관한 기본권과 자유, 특히 개인정보보호에 대한 권리를 보호하고, EU 역내에서 개인정보의 자유로운 이동을 보장하는 것을 목적으로 제정됐다. GDPR은 개인정보 삭제권, 처리 제한권, 개인정보 이동권, 반대권 등의 신규 권리 추가 및 기존 권리를 명확하게 해 95년 지침보다 정보주체의 권리를 확대•강화한 것이 특징이다. 이외에도 DPO 지정, 정보보호 체계 등의 내용을 포함해 기업의 책임성을 강화했다. GDPR은 강력한 개인정보보호 규제이긴 하지만, 규정이 준수되는 범위 안에서 개인정보의 활용을 보장하는 법이기도 하다. 까다로운 절차를 준수했을 경우 개인정보 주체의 동의를 받은 범위 내에서 개인정보 활용이 가능한 것이다. 이에 규정을 준수하고 개인정보를 활용할 수 있는 방안이 활발하게 논의되고 있다. GDPR은 개인정보 처리 수단의 결정 시점과 처리 당시 시점에서 개인정보보호의 원칙을 적용해야 한다고 규정하고 있다. 컨트롤러는 최신 기술, 실행 비용, 개인정보 처리의 성격과 범위, 상황, 목적, 개인정보 처리로 인해 개인의 권리와 자유에 대해 발생할 수 있는 변경 가능성, 중대성 및 위험성 등을 고려해 적절한 조치를 취해야 하는 것이다. 이런 조치는 개인정보 처리의 최소화, 정보주체의 권리 보장, 가명처리와 같은 개인정보 비식별화 등이 해당된다. 여기서 개인정보 활용 방법으로 논의가 활발한 분야가 비식별화다. 개인정보 비식별 처리에는 가명화와 익명화로 크게 구분할 수 있다. 다만 가명화의 경우 추가적 정보를 활용하면 개인을 식별할 수 있는 정보이기 때문에 식별 가능한 개인정보로 봐야 한다고 명시돼 있다. 가명처리된 정보는 GDPR 준수 의무에서 완전히 배제되지는 않지만, 가명처리 기술을 사용하는 경우 컨트롤러에 대한 요구사항이 완화되는 등의 인센티브가 있을 것으로 생각된다. 비식별 조치 및 사후 관리 절차(출처: 금융보안원) GDPR은 개인정보 처리의 당초 목적과 양립 가능성 여부를 판단하는 보호조치 중 하나로 가명처리를 명시하고 있다. 특히 공익을 위한 기록 보존의 목적, 과학이나 역사적 연구 목적, 또는 통계 목적인 경우의 정보처리는 당초 목적과 양립 가능성이 있는 것으로 보고 가명처리를 통해 추가적인 개인정보 처리가 가능하다고 밝히고 있다. 다만 추가적 정보는 기술적, 관리적 조치 하에 별도 분리 보관해야 하며, 이 경우 재식별을 엄격하게 금지시키고 있다. 익명화는 개인정보에 익명 처리 기술을 통해 개인을 식별할 수 없는 정보로 처리하는 방식을 뜻한다. 익명화의 대표적인 기술 중 하나를 꼽으면 데이터 마스킹(Data Masking)을 들 수 있다. 데이터 마스킹은 데이터셋에서 특정정보를 없애는 방식이다. 예를 들어 서류에서 주민등록번호를 별표(*)로 표시하는 등 데이터를 가공하는 것이다. 유럽 GDPR에서는 익명화 기술 중 애드노이즈(Add Noise)와 딜리트(Delete) 기법을 강조하고 있다. 애드노이즈는 문자 등을 넣어 개인정보를 식별할 수 없게 만드는 기법이고, 딜리트는 개인정보를 삭제해 식별하지 못하도록 한다. 딜리트 기법의 대표적인 기술이 데이터 마스킹이다. ■ 개인정보 비식별화 국제 표준, 올해 내 마련될 전망 개인정보 활용은 컴플라이언스와 밀접한 연관이 있다. 우리나라의 경우 개인정보보호법을 통해 개인정보보호와 활용을 법으로 규정하고 있다. 유럽의 GDPR도 비슷한 인식에서 제정된 규정이다. 미국의 표준기술연구소(NIST)에서도 개인정보 활용을 위한 표준을 마련해놓고 있다. 개인정보 비식별화에 대한 논의가 시작된 것은 2014년부터다. 국제표준화기구(ISO)와 국제 전기 표준 회의(IEC)는 개인정보 비식별 처리 기술 표준 ‘DIS 20889’를 개발하고 있다. 올해 ‘ISO/IEC 20889’ 표준으로 지정될 것으로 전망된다. 비식별 조치 가이드라인 비교 (출처: 금융보안원) ‘ISO/IEC 20889’는 ‘ISO/IEC 29100(Privacy Framework)’에서 제시하고 있는 프라이버시를 강화하기 위한 비식별 기술을 정의하고 있다. 이 표준에는 비식별 관련 용어의 정의, 비식별 기술에 대한 분류, 비식별 모델, 비식별 기술의 적용 원칙 등을 포함하고 있다. ‘ISO/IEC 20889’는 데이터 비식별 기술을 크게 8가지 범주로 나누고 있다. 세부적인 기술로 살펴보면 21가지로 나눌 수 있다. 표준에서는 마스킹, 가명화, k-익명성, l-다양성, t-유사성, 샘플링, 총계 등 다양한 방식의 비식별 기술을 제시하고 있다. 세부적으로 알려진 마스킹 등의 기법 외에도 데이터 해부화, 가상 데이터 생성, 복호화를 하지 않고도 연산을 가능토록 하는 동형 암호화 등의 기법이 추가됐다. 또한 개별화, 연결 가능성, 추론 가능성, 구별 불가능성 등 재식별 가능성을 판별하는 4가지 기준을 제시하고 있다. 다만 비식별 처리 절차와 비식별 처리된 데이터에 대한 재식별 위험 관리 방법에 대한 내용은 포함하지 않고 있다. ■ 비식별화 시장이 가장 활성화된 국가는 미국 김기태 파수닷컴 컨설팅사업팀장은 미국의 비식별화 시장이 가장 활성화돼 있다고 설명했다. 미국은 상무부 산하 표준화 기구인 NIST에서 20여 년간의 비식별화에 대한 논의를 정리한 ‘개인 식별 정보의 비식별 처리 가이드’를 2015년 발간했으며, 이 보고서의 확장으로 ‘공공데이터에 대한 비식별 처리 가이드’를 2016년 말 추가로 발간했다. 미국의 ‘개인 식별 정보의 비식별 처리 가이드’는 모든 데이터 비식별화 기술에는 재식별 위험성이 존재한다는 것을 전제로 하고 있다. 특히 특정인과 정보 간 연결가능성 등 비식별화 데이터 유형에 따라 프라이버시 침해 위험성의 정도를 표현하는 개념을 제시했다. 즉, 데이터가 특정인과 연결됐는지, 특정인과 연결될 잠재적 가능성이 있는지, 특정인은 아니지만 어느 정도 사람들과 연결될 가능성이 있는지 등에 따라 해당 정보가 식별돼 프라이버시를 침해할 위험성이 달라지는 것을 표현해 놨다. NIST에서 정의한 비식별화 데이터 유형 (출처: 금융보안원) 또한 비식별화, 재식별화의 개념들을 개괄적으로 정의하고, 이미지나 유전자 정보와 같은 복잡한 정보의 비식별화에 대한 요구사항을 제시했다. 데이터 비식별화를 위한 방법으로 삭제, 마스킹 등 다양한 방법들을 설명했고, 비식별화는 단일한 기업만 존재하는 것이 아니라 개별적인 활용 목적이나 상황에 따라 다양한 비식별 처리 기법이 수행될 수 있다고 설명했다. 2016년 말 발간된 ‘공공데이터에 대한 비식별 처리 가이드’는 이전 ‘개인 식별 정보의 비식별 처리 가이드’에서 다루지 않은 빅데이터 처리과정에서의 데이터 생명주기 사례를 제시하고 생명주기 별 비식별 처리 고려사항을 제시했다. 또한 비식별 처리 결과를 평가하기 위해 전문가가 참여하는 위원회에 대한 필요성을 포함했고, 비식별 처리 방법에 대한 교육과 홍보•연구의 중요성을 언급했다. 미국에서는 개인정보 보호에 관한 일반법이 없다. 개별 법령에서 제한하지 않는 한 자유로운 데이터 이용이 보장되는 것이다. 미국에서는 분야별로 개인정보 보호에 관한 개별 법령이 운영되고 있는데, 의료와 교육 분야를 대표적으로 들 수 있다. 의료정보는 ‘건강보험 이전과 책임에 관한 법(HIPPA)’에 따른 ‘HIPPA 프라이버시 규칙’에서 비식별 조치의 기준이 제시되고 있다. 비식별 조치가 된 의료정보는 제한없이 이용이 가능하다. 교육정보와 관련해서는 ‘가족의 교육적 권리 및 프라이버시 법(FERPA)’가 있다. 이 법은 비식별 조치된 학생기록에 대해 별도의 동의 없이 배포가 가능하게 규정하고 있다. 비식별 조치는 특정인임을 추론할 수 있는지 여부를 검토해 일정 확률 수준 이상 비식별화가 되도록 하는 기법인 ‘k-익명성 모델’을 활용토록 명시하고 있다. ■ EU GDPR, 개인정보 가명화 강조 김기태 탈레스 e시큐리티 한국지사장은 GDPR에서 가장 강조되는 개념 중 하나가 ‘가명화(Pseudonymisation)’라고 설명했다. GDPR을 준수하기 위해서는 시스템에 개인정보가 저장될 때 해당 정보들이 가명화돼 저장돼야 한다는 것이다. 이런 측면에서 기존에 데이터 활용에 사용되던 데이터 마스킹 기술과 차이가 있다. 김기태 지사장의 설명에 따르면, 기존 데이터 마스킹과 같은 기술은 실제 서비스를 제공하는 시스템에서는 개인정보가 원래의 값을 유지하는 개념이지만, GDPR은 다르다. 데이터 마스킹과 같은 기술이 가명화 요건까지 충족하려면 △마스킹으로 변환되는 값이 유일할 것 △마스킹된 값으로부터 원본을 유츄할 수 없어야 할 것 △시스템상 원본이 존재하지 않기 때문에 서비스 고가용성을 갖출 것 △애플리케이션 내부에서도 복원되지 않는 동적 마스킹 기술이 적용될 것 등이 필요하다. 김기태 지사장은 “GDPR의 가명처리는 ‘추가적인 정보의 사용 없이는 더 이상 특정 개인정보주체에게 연계될 수 없는 방식’으로 개인정보를 처리하는 것”이라며, “다른 한편으로는 프라이버시 보호를 강화시키는 기술을 사용해 그 침해 위험이 감소된 정보는 자유롭게 활용할 수 있도록 하는 접근방식을 취하고 있다”고 말했다. ■ 기업간 경쟁보다 시장 활성화가 우선 2016년 ‘개인정보 비식별 조치 가이드라인’을 통해 개인정보 비식별화 시장을 형성하려는 움직임이 있었다. 하지만 2017년 11월 시민단체의 고발로 인해 기업과 기관들이 소극적으로 변했고, 이에 우리나라의 비식별화 시장은 위축돼 있는 상황이다. 보안 업계 관계자들은 한 목소리로 “비식별화는 컴플라이언스와 밀접한 연관이 있는 분야”라며, “컴플라이언스가 마련돼야 시장이 형성될 수 있다”고 말했다. 김기태 파수닷컴 팀장은 “비식별화는 컴플라이언스에 맞춰갈 수밖에 없는데, 현재로선 정부도 오락가락하는 상황”이라며, “시민단체가 주장하는 보호의 관점과 산업계가 요구하는 활용의 관점이 다르며, 이는 결국 제도를 만드는 정부가 방점을 어디에 찍느냐에 달렸다”고 강조했다. 이어 김 팀장은 “정부에서 제도를 만들어야 시장이 커지고 기업 간 경쟁이 유발된다”며, “지금으로선 기업간의 경쟁보다 시장을 형성하는 게 먼저”라고 덧붙였다. 박천오 피앤피시큐어 대표는 “비식별화 조치는 학문적, 법적 개념정립이 필요하다”며, “기술적인 측면에서 파일 비식별화와 DB 비식별화 두 가지 부류로 나눌 수 있을 것으로 보이며, 이에 따라 시장이 형성될 것”이라고 말했다. 박 대표는 이어 “비식별화와 관련해 보안 기업들은 준비가 되어 있으며 컴플라이언스가 마련되는 대로 시장이 형성될 것으로 보인다”며, “기준점이 될 컴플라이언스 마련이 시급하다”고 덧붙였다. 지난 6월 14일 진행됐던 개인정보보호법학회 학술 세미나에서 지성우 성균관대학교 교수는 ‘가명/익명정보의 합리적 보호와 활용방안’을 주제로 발표하면서, △정보통신기술 발전현황에 적합한 수준으로 입법돼야 할 것 △개인정보보호 관련 입법은 국제적 수준에 적합해야 할 것 △개인정보보호에 관한 법제를 전반적, 종합적. 체계적으로 해석하고 관리할 수 있는 행정기관을 창설해 컨트롤타워를 명확히 할 것 등의 방안을 제시했다. 지성우 교수는 세미나 발표를 통해 “빅데이터 시대에는 먼저 비식별화가 개인정보보호에 어떤 기여를 하는지에 대한 연구가 선행돼야 한다”며, “또한 방송통신위원회가 발표한 ‘빅데이터 개인정보보호 가이드라인’보다 실효성 있는 법제화가 필요하다”고 강조했다. 이어 “국내 개인정보보호법은 가명 처리에 대해 애매한 부분이 있다”며, “법•제도 정비 이전에 개념 정립이 ■ 개인정보 활용과 보호, 두 마리 토끼 모두 잡아야 개인정보 비식별화는 국제적으로 뜨거운 이슈다. 데이터 활용 측면에서 시장을 선도하기 위한 경쟁이 치열하기 때문이다. 현재로선 미국과 유럽이 주도하고 있는 상황이다. 유럽은 GDPR을 시행함으로써 EU 내에서 개인정보를 보호하면서도 활용할 수 있는 방안을 마련했다. 더불어 역외이전에 관한 규정을 마련함으로써 EU 지역 외에서 EU 국민의 정보를 활용하는 것에 제약을 뒀다. 미국도 개별법을 통해 개인정보를 포함한 데이터를 활용할 수 있는 방안을 마련해뒀다. 비식별화 조치만 이뤄진다면 의료정보도 활용할 수 있다. 우리나라의 경우 개인정보보호법을 통해 개인정보보호에 대한 기준을 강력하게 규정하고 있다. 보호 측면에서는 높이 평가할 수 있지만, 데이터와 관련된 산업 발전에 있어서는 걸림돌이 되는 상황이다. 국내에서도 데이터 관련 산업을 육성해야 한다는 목소리가 커지고 있다. 미래 먹거리로 기대되는 빅데이터 산업에 뒤쳐져서는 안 된다는 것이다. 이에 정부를 비롯한 산업계, 학계가 함께 활발히 논의하고 있다. 하지만 시민단체와 산업계 간에 의견차는 아직 존재하고 있는 것으로 보인다. 큰 틀에서 활용이라는 방향은 잡았지만, 세부적인 내용에서 의견차를 좁히지 못하고 있다는 것이다. 활용과 보호는 둘 다 포기하지 못하는 사항이다. 활용을 포기하면 빅데이터 산업에서 뒤처질 수밖에 없으며, 보호를 포기하면 개인의 인권 문제가 생길 수 있다. 두 가지를 모두 만족할 수 있는 합리적인 방안으로 컴플라이언스가 마련돼야 하는 이유다.

내용

인공지능(AI)이 우리생활 깊숙이 파고들기 시작하면서 인공지능(AI)의 개인식별사업이 빠른 속도로 성장하고 있지만 우리는 정부의 제도 개선 미비로 산업화에 한계를 갖고 있다는 평가다.

정부와 대통령직속 4차산업혁명위원회는 지난달 26일 ‘데이터산업 활성화 전략’을 의결하고, 4차 산업혁명의 원료인 데이터에 대한 규제완화를 시작했지만 미국, 중국, 일본에 비해 여전히 규제가 지나치기 때문이다.

특히 정부가 ‘마이 데이터’ 시범 사업을 통해 개인 동의를 전제로 개인 정보를 기업이 활용할 수 있게 한 것은 정보 제공의 단계를 처음부터 시작한다는 점에서 오히려 스타트업(초기 벤처)와 대기업간 양극화를 부추길 것이란 우려가 나온다.

마이 데이터 사업은 내가 건강보험관리공단(기관)등에서 내 의료정보를 직접 내려받아 제3자(병원 등)에 제공해 빅데이터 분석을 의뢰한 뒤 실시간 건강관리를 받는 것이다.

이에 따라 복잡한 제도 대신 △개인임을 알 수 없는 ‘비식별정보’는 동의 없이 활용할 수 있게 하고 △동의 도입 시 사람마다 제각각인 생각의 차이를 반영해 사전동의형(Opt-In), 포괄동의(One Click Consent)+사후동의배제형(Opt-Out) 등을 선택할 수 있게 해야 한다는 지적이 나온다.

이런 가운데 5월25일부터 개인정보보호법(GDPR)을 시행하기 시작한 유럽이 주는 시사점이 대단히 크다. GDPR에서 주목해야 할 부분은 개인정보 활용하기 위해서는 가명화, 익명화 등 비식별화 조치가 수반돼야 한다는 점이다. 우리나라도 GDPR에 대응하기 위해 적정성 평가를 추진하고 있다.

하지만 국내에서는 GDPR이 정의하고 있는 가명 처리에 대한 법적 정의도 정립되지 않은 상태다.
비식별화 조치에 대한 국제 표준은 올해 마련될 것으로 전망된다. 이에 국내에서는 개인정보 처리에 있어 활용과 보호라는 두 가지 관점에서 정부와 학계, 산업계의 활발한 논의가 이뤄지고 있다.

출처: 구태언 변호사(태크앤로)

■ 개인식별 사업이 뜬다..글로벌 공룡들, 한국 시장 진출

4차 산업혁명은 겉으론 거창해 보이나 실은 출입국 관리, 온라인 범인 추적, 가사 서비스 로봇, 자율주행차 등에서 개인을 식별해 범죄를 해결하거나개인화 서비스를 제공하는 것이다.

이때 정확한 개인 식별이 안 되면 사회 안전망이 붕괴되고 식구를 못 알아보는 로봇이나 내게 편의나 혜택을 주지 않는 서비스를 외면하게 된다. 지금은 음악을 듣거나 날씨나 뉴스를 듣는 인공지능(AI) 스피커가 ‘아리아, 비트코인 넣어줘’, ‘아리아, 내 카톡 읽어줘’ 등 개인화로 바뀌고 있는 것이다.

실제로 구글의 ‘행동인식 프로젝트’나 마이크소프트(MS)의 스피치 API(응용프로그램인터페이스)는 물론, 중국 기업 이플라이텍도 개인식별 기능에 올인하고 있다. 이플라이텍은 중국 인공지능(AI) 개발회사로 한글과컴퓨터와 제휴해 국내 진출을 추진 중이다. 작년 11월 중국 과학기술부 ‘차세대 인공지능 개발 사업’에 선정된 기업이기도 하다.

■ 우리 기업은 잠재적 범죄자…비식별 정보 동의 없이 쓰게 하라, 정부 규제 개선 미흡

그런데 이 같은 개인화된 AI서비스에서 성공하려면 식별기술의 고도화가 전제돼야 하고, 식별기술이 발전하려면 기업은 개인 동의를 전제로 광범위한데이터를 수집해 분석할 수 있어야 한다.

우리 기업들은 어떨까. AI를 개발 중인 대다수 기업들이 잠재적 범죄자이거나 실제로 개인임을 밝혀내는 나쁜 짓을 해도 처벌이 어려운 모순적 상황이라는 평가다.

구태언 태크앤로 대표 변호사(4차산업혁명위원회 전문위원)는 “현행 법에서 기업은 개인을 알아보지 못하게 만드는 비식별화 조치를 통해 데이터를 활용하는데 기술의 진보로 여전히 법률적 위험이 존재한다”며 “거꾸로 정부의 ‘비식별조치 가이드라인’은 비식별조치이후 (기업이) 개인을 식별해도 처벌할 수 없는 한계가 있다”고 밝혔다.

어떤 기업이 비식별된 정보로 식별 행위를 했을 때, 최초의 식별행위는 이미 수집한 비식별정보를 대상으로 하기 때문에 개인정보보호법상 동의 없는 ‘수집’으로 볼 수 없어, “그때 그때 달라요”라는 예측 불가 상황이 발생한다는 의미다.

이에 따라 구 변호사는 차라리 AI 시대 국내 개인정보 보호 법제를 형식주의 대신에 실용적이고 합목적적으로 바꿔야 한다고 제안했다.

△개인정보를 개인임을 알 수 있는 식별정보와, 알 수 없는 비식별정보로 나눠 식별정보에만 동의제도를 적용하고 △개인 동의역시 무조건 사전동의 대신 포괄동의나 사후동의배제 등 개인별로 선택하게 만들자는 것이다.

그는 “시민단체가 전 국민을 대표할 순 없으니 동의를 사람마다 달리 할 수 있도록 선택권을 줘야 한다”며 “최근 발표된 정부의 데이터 규제완화는 미흡하다. AI서비스엔 국경이 없어 자칫 우리보다 똑똑한 AI서비스가 들어오면 우리나라는 정보 좀비국가가 될 수 있다”고 우려했다.

지난달 29일 데이터산업 활성화 토론회를 연 오세정 의원(바른미래당)은 “지난 4월 대표발의한 비식별 개인정보의 활용에 대한 법안 발의에도 현장에는 데이터 활용을 가로막는 장벽이 여전히 존재한다”며 “데이터 활용이 제약되고 있는 문제 해결을 위해 바른미래당 차원에서 지속 노력 하겠다”고 밝혔다.

■ 급속히 성장하고 있는 개인정보 비식별화 시장

유럽연합(EU)의 개인정보보호법(GDPR)이 지난 5월 25일 본격 시행됐다. GDPR은 자연인에 관한 기본권과 자유, 특히 개인정보보호에 대한 권리를 보호하고, EU 역내에서 개인정보의 자유로운 이동을 보장하는 것을 목적으로 제정됐다. GDPR은 개인정보 삭제권, 처리 제한권, 개인정보 이동권, 반대권 등의 신규 권리 추가 및 기존 권리를 명확하게 해 95년 지침보다 정보주체의 권리를 확대•강화한 것이 특징이다. 이외에도 DPO 지정, 정보보호 체계 등의 내용을 포함해 기업의 책임성을 강화했다.

GDPR은 강력한 개인정보보호 규제이긴 하지만, 규정이 준수되는 범위 안에서 개인정보의 활용을 보장하는 법이기도 하다. 까다로운 절차를 준수했을 경우 개인정보 주체의 동의를 받은 범위 내에서 개인정보 활용이 가능한 것이다. 이에 규정을 준수하고 개인정보를 활용할 수 있는 방안이 활발하게 논의되고 있다.

GDPR은 개인정보 처리 수단의 결정 시점과 처리 당시 시점에서 개인정보보호의 원칙을 적용해야 한다고 규정하고 있다. 컨트롤러는 최신 기술, 실행 비용, 개인정보 처리의 성격과 범위, 상황, 목적, 개인정보 처리로 인해 개인의 권리와 자유에 대해 발생할 수 있는 변경 가능성, 중대성 및 위험성 등을 고려해 적절한 조치를 취해야 하는 것이다. 이런 조치는 개인정보 처리의 최소화, 정보주체의 권리 보장, 가명처리와 같은 개인정보 비식별화 등이 해당된다.

여기서 개인정보 활용 방법으로 논의가 활발한 분야가 비식별화다. 개인정보 비식별 처리에는 가명화와 익명화로 크게 구분할 수 있다. 다만 가명화의 경우 추가적 정보를 활용하면 개인을 식별할 수 있는 정보이기 때문에 식별 가능한 개인정보로 봐야 한다고 명시돼 있다. 가명처리된 정보는 GDPR 준수 의무에서 완전히 배제되지는 않지만, 가명처리 기술을 사용하는 경우 컨트롤러에 대한 요구사항이 완화되는 등의 인센티브가 있을 것으로 생각된다.

비식별 조치 및 사후 관리 절차(출처: 금융보안원)

GDPR은 개인정보 처리의 당초 목적과 양립 가능성 여부를 판단하는 보호조치 중 하나로 가명처리를 명시하고 있다. 특히 공익을 위한 기록 보존의 목적, 과학이나 역사적 연구 목적, 또는 통계 목적인 경우의 정보처리는 당초 목적과 양립 가능성이 있는 것으로 보고 가명처리를 통해 추가적인 개인정보 처리가 가능하다고 밝히고 있다. 다만 추가적 정보는 기술적, 관리적 조치 하에 별도 분리 보관해야 하며, 이 경우 재식별을 엄격하게 금지시키고 있다.

익명화는 개인정보에 익명 처리 기술을 통해 개인을 식별할 수 없는 정보로 처리하는 방식을 뜻한다. 익명화의 대표적인 기술 중 하나를 꼽으면 데이터 마스킹(Data Masking)을 들 수 있다. 데이터 마스킹은 데이터셋에서 특정정보를 없애는 방식이다. 예를 들어 서류에서 주민등록번호를 별표(*)로 표시하는 등 데이터를 가공하는 것이다.

유럽 GDPR에서는 익명화 기술 중 애드노이즈(Add Noise)와 딜리트(Delete) 기법을 강조하고 있다. 애드노이즈는 문자 등을 넣어 개인정보를 식별할 수 없게 만드는 기법이고, 딜리트는 개인정보를 삭제해 식별하지 못하도록 한다. 딜리트 기법의 대표적인 기술이 데이터 마스킹이다.

■ 개인정보 비식별화 국제 표준, 올해 내 마련될 전망

개인정보 활용은 컴플라이언스와 밀접한 연관이 있다. 우리나라의 경우 개인정보보호법을 통해 개인정보보호와 활용을 법으로 규정하고 있다. 유럽의 GDPR도 비슷한 인식에서 제정된 규정이다. 미국의 표준기술연구소(NIST)에서도 개인정보 활용을 위한 표준을 마련해놓고 있다.

개인정보 비식별화에 대한 논의가 시작된 것은 2014년부터다. 국제표준화기구(ISO)와 국제 전기 표준 회의(IEC)는 개인정보 비식별 처리 기술 표준 ‘DIS 20889’를 개발하고 있다. 올해 ‘ISO/IEC 20889’ 표준으로 지정될 것으로 전망된다.

비식별 조치 가이드라인 비교 (출처: 금융보안원)

‘ISO/IEC 20889’는 ‘ISO/IEC 29100(Privacy Framework)’에서 제시하고 있는 프라이버시를 강화하기 위한 비식별 기술을 정의하고 있다. 이 표준에는 비식별 관련 용어의 정의, 비식별 기술에 대한 분류, 비식별 모델, 비식별 기술의 적용 원칙 등을 포함하고 있다.

‘ISO/IEC 20889’는 데이터 비식별 기술을 크게 8가지 범주로 나누고 있다. 세부적인 기술로 살펴보면 21가지로 나눌 수 있다. 표준에서는 마스킹, 가명화, k-익명성, l-다양성, t-유사성, 샘플링, 총계 등 다양한 방식의 비식별 기술을 제시하고 있다. 세부적으로 알려진 마스킹 등의 기법 외에도 데이터 해부화, 가상 데이터 생성, 복호화를 하지 않고도 연산을 가능토록 하는 동형 암호화 등의 기법이 추가됐다.

또한 개별화, 연결 가능성, 추론 가능성, 구별 불가능성 등 재식별 가능성을 판별하는 4가지 기준을 제시하고 있다. 다만 비식별 처리 절차와 비식별 처리된 데이터에 대한 재식별 위험 관리 방법에 대한 내용은 포함하지 않고 있다.

■ 비식별화 시장이 가장 활성화된 국가는 미국

김기태 파수닷컴 컨설팅사업팀장은 미국의 비식별화 시장이 가장 활성화돼 있다고 설명했다. 미국은 상무부 산하 표준화 기구인 NIST에서 20여 년간의 비식별화에 대한 논의를 정리한 ‘개인 식별 정보의 비식별 처리 가이드’를 2015년 발간했으며, 이 보고서의 확장으로 ‘공공데이터에 대한 비식별 처리 가이드’를 2016년 말 추가로 발간했다.

미국의 ‘개인 식별 정보의 비식별 처리 가이드’는 모든 데이터 비식별화 기술에는 재식별 위험성이 존재한다는 것을 전제로 하고 있다. 특히 특정인과 정보 간 연결가능성 등 비식별화 데이터 유형에 따라 프라이버시 침해 위험성의 정도를 표현하는 개념을 제시했다. 즉, 데이터가 특정인과 연결됐는지, 특정인과 연결될 잠재적 가능성이 있는지, 특정인은 아니지만 어느 정도 사람들과 연결될 가능성이 있는지 등에 따라 해당 정보가 식별돼 프라이버시를 침해할 위험성이 달라지는 것을 표현해 놨다.

NIST에서 정의한 비식별화 데이터 유형 (출처: 금융보안원)

또한 비식별화, 재식별화의 개념들을 개괄적으로 정의하고, 이미지나 유전자 정보와 같은 복잡한 정보의 비식별화에 대한 요구사항을 제시했다. 데이터 비식별화를 위한 방법으로 삭제, 마스킹 등 다양한 방법들을 설명했고, 비식별화는 단일한 기업만 존재하는 것이 아니라 개별적인 활용 목적이나 상황에 따라 다양한 비식별 처리 기법이 수행될 수 있다고 설명했다.

2016년 말 발간된 ‘공공데이터에 대한 비식별 처리 가이드’는 이전 ‘개인 식별 정보의 비식별 처리 가이드’에서 다루지 않은 빅데이터 처리과정에서의 데이터 생명주기 사례를 제시하고 생명주기 별 비식별 처리 고려사항을 제시했다. 또한 비식별 처리 결과를 평가하기 위해 전문가가 참여하는 위원회에 대한 필요성을 포함했고, 비식별 처리 방법에 대한 교육과 홍보•연구의 중요성을 언급했다.
미국에서는 개인정보 보호에 관한 일반법이 없다. 개별 법령에서 제한하지 않는 한 자유로운 데이터 이용이 보장되는 것이다. 미국에서는 분야별로 개인정보 보호에 관한 개별 법령이 운영되고 있는데, 의료와 교육 분야를 대표적으로 들 수 있다.

의료정보는 ‘건강보험 이전과 책임에 관한 법(HIPPA)’에 따른 ‘HIPPA 프라이버시 규칙’에서 비식별 조치의 기준이 제시되고 있다. 비식별 조치가 된 의료정보는 제한없이 이용이 가능하다. 교육정보와 관련해서는 ‘가족의 교육적 권리 및 프라이버시 법(FERPA)’가 있다. 이 법은 비식별 조치된 학생기록에 대해 별도의 동의 없이 배포가 가능하게 규정하고 있다. 비식별 조치는 특정인임을 추론할 수 있는지 여부를 검토해 일정 확률 수준 이상 비식별화가 되도록 하는 기법인 ‘k-익명성 모델’을 활용토록 명시하고 있다.

■ EU GDPR, 개인정보 가명화 강조

김기태 탈레스 e시큐리티 한국지사장은 GDPR에서 가장 강조되는 개념 중 하나가 ‘가명화(Pseudonymisation)’라고 설명했다. GDPR을 준수하기 위해서는 시스템에 개인정보가 저장될 때 해당 정보들이 가명화돼 저장돼야 한다는 것이다. 이런 측면에서 기존에 데이터 활용에 사용되던 데이터 마스킹 기술과 차이가 있다. 김기태 지사장의 설명에 따르면, 기존 데이터 마스킹과 같은 기술은 실제 서비스를 제공하는 시스템에서는 개인정보가 원래의 값을 유지하는 개념이지만, GDPR은 다르다.

데이터 마스킹과 같은 기술이 가명화 요건까지 충족하려면 △마스킹으로 변환되는 값이 유일할 것 △마스킹된 값으로부터 원본을 유츄할 수 없어야 할 것 △시스템상 원본이 존재하지 않기 때문에 서비스 고가용성을 갖출 것 △애플리케이션 내부에서도 복원되지 않는 동적 마스킹 기술이 적용될 것 등이 필요하다.

김기태 지사장은 “GDPR의 가명처리는 ‘추가적인 정보의 사용 없이는 더 이상 특정 개인정보주체에게 연계될 수 없는 방식’으로 개인정보를 처리하는 것”이라며, “다른 한편으로는 프라이버시 보호를 강화시키는 기술을 사용해 그 침해 위험이 감소된 정보는 자유롭게 활용할 수 있도록 하는 접근방식을 취하고 있다”고 말했다.

■ 기업간 경쟁보다 시장 활성화가 우선

2016년 ‘개인정보 비식별 조치 가이드라인’을 통해 개인정보 비식별화 시장을 형성하려는 움직임이 있었다. 하지만 2017년 11월 시민단체의 고발로 인해 기업과 기관들이 소극적으로 변했고, 이에 우리나라의 비식별화 시장은 위축돼 있는 상황이다.

보안 업계 관계자들은 한 목소리로 “비식별화는 컴플라이언스와 밀접한 연관이 있는 분야”라며, “컴플라이언스가 마련돼야 시장이 형성될 수 있다”고 말했다. 김기태 파수닷컴 팀장은 “비식별화는 컴플라이언스에 맞춰갈 수밖에 없는데, 현재로선 정부도 오락가락하는 상황”이라며, “시민단체가 주장하는 보호의 관점과 산업계가 요구하는 활용의 관점이 다르며, 이는 결국 제도를 만드는 정부가 방점을 어디에 찍느냐에 달렸다”고 강조했다. 이어 김 팀장은 “정부에서 제도를 만들어야 시장이 커지고 기업 간 경쟁이 유발된다”며, “지금으로선 기업간의 경쟁보다 시장을 형성하는 게 먼저”라고 덧붙였다.

박천오 피앤피시큐어 대표는 “비식별화 조치는 학문적, 법적 개념정립이 필요하다”며, “기술적인 측면에서 파일 비식별화와 DB 비식별화 두 가지 부류로 나눌 수 있을 것으로 보이며, 이에 따라 시장이 형성될 것”이라고 말했다. 박 대표는 이어 “비식별화와 관련해 보안 기업들은 준비가 되어 있으며 컴플라이언스가 마련되는 대로 시장이 형성될 것으로 보인다”며, “기준점이 될 컴플라이언스 마련이 시급하다”고 덧붙였다.

지난 6월 14일 진행됐던 개인정보보호법학회 학술 세미나에서 지성우 성균관대학교 교수는 ‘가명/익명정보의 합리적 보호와 활용방안’을 주제로 발표하면서, △정보통신기술 발전현황에 적합한 수준으로 입법돼야 할 것 △개인정보보호 관련 입법은 국제적 수준에 적합해야 할 것 △개인정보보호에 관한 법제를 전반적, 종합적. 체계적으로 해석하고 관리할 수 있는 행정기관을 창설해 컨트롤타워를 명확히 할 것 등의 방안을 제시했다.

지성우 교수는 세미나 발표를 통해 “빅데이터 시대에는 먼저 비식별화가 개인정보보호에 어떤 기여를 하는지에 대한 연구가 선행돼야 한다”며, “또한 방송통신위원회가 발표한 ‘빅데이터 개인정보보호 가이드라인’보다 실효성 있는 법제화가 필요하다”고 강조했다. 이어 “국내 개인정보보호법은 가명 처리에 대해 애매한 부분이 있다”며, “법•제도 정비 이전에 개념 정립이

■ 개인정보 활용과 보호, 두 마리 토끼 모두 잡아야

개인정보 비식별화는 국제적으로 뜨거운 이슈다. 데이터 활용 측면에서 시장을 선도하기 위한 경쟁이 치열하기 때문이다. 현재로선 미국과 유럽이 주도하고 있는 상황이다. 유럽은 GDPR을 시행함으로써 EU 내에서 개인정보를 보호하면서도 활용할 수 있는 방안을 마련했다. 더불어 역외이전에 관한 규정을 마련함으로써 EU 지역 외에서 EU 국민의 정보를 활용하는 것에 제약을 뒀다. 미국도 개별법을 통해 개인정보를 포함한 데이터를 활용할 수 있는 방안을 마련해뒀다. 비식별화 조치만 이뤄진다면 의료정보도 활용할 수 있다.

우리나라의 경우 개인정보보호법을 통해 개인정보보호에 대한 기준을 강력하게 규정하고 있다. 보호 측면에서는 높이 평가할 수 있지만, 데이터와 관련된 산업 발전에 있어서는 걸림돌이 되는 상황이다. 국내에서도 데이터 관련 산업을 육성해야 한다는 목소리가 커지고 있다. 미래 먹거리로 기대되는 빅데이터 산업에 뒤쳐져서는 안 된다는 것이다. 이에 정부를 비롯한 산업계, 학계가 함께 활발히 논의하고 있다.

하지만 시민단체와 산업계 간에 의견차는 아직 존재하고 있는 것으로 보인다. 큰 틀에서 활용이라는 방향은 잡았지만, 세부적인 내용에서 의견차를 좁히지 못하고 있다는 것이다. 활용과 보호는 둘 다 포기하지 못하는 사항이다. 활용을 포기하면 빅데이터 산업에서 뒤처질 수밖에 없으며, 보호를 포기하면 개인의 인권 문제가 생길 수 있다. 두 가지를 모두 만족할 수 있는 합리적인 방안으로 컴플라이언스가 마련돼야 하는 이유다.

설수진 ajuaju123@naver.com

다른기사 보기