(기획)블록체인 시대의 AI 데이터 거버넌스(Data governance) 중요성

IoT 디바이스와 콘텐츠 이용자의 이용 기록, 기업들의 거래 데이터 등 다양한 데이터가 생성되고 있다. 기업들이 데이터를 활용해 경쟁력을 높이려는 의지가 더해지면서 AI와 블록체인의 경쟁력이 더해가고 있는 것이다.

반면 다양한 소스에서 거의 실시간 단위로 쏟아지는 수많은 유형의 데이터를 관리하기가 점점 힘들어지고 있다. 게다가, 개인정보에 대한 이슈가 더해지면서 기업들이 데이터를 어떻게 처리하고 기록하고 이용하며, 보호할 것인가를 까다롭게 요구하는 규정들도 확대되고 있다.

예컨대, 유럽연합의 GDPR(General Data Protection Regulation)이 지난달 25일자로 발효된 것이 대표적 사례다. 이 규제를 위반하면 최고 2천만 유로 또는 매출액의 4%의 벌금이 부과된다. 데이터의 주체가 GDPR 하에서 확대된 권리를 행사하기에 적절한지 기업들의 확인이 필요한데, 여기에는 통보 받을 권리, 접근할 권리, 수정할 권리, 처리를 제한할 권리, 데이터를 옮길 권리, 이의 신청 권리, 자동화된 의사 결정의 대상이 되지 않을 권리, 삭제 권리(잊혀질 권리) 등이 모두 포함된다.

이러한 규제는 그동안 데이터 레이크(Data Lake) 이니셔티브를 통해 가능한한 많은 데이터에 접속 가능하게 하자는 데이터 공개 및 활용 취지를 한순간에 물거품화 할 수 있는 조치이다. 한편, MIT 슬론 경영대학원 리뷰에 따르면, 2016~2017년 데이터 접속과 인사이트 획득 효과성 간 간극이 지난 6년 간과 비교해 최대인 50%로 확대됐다고 한다.

이는 데이터가 많다고 항상 더 좋은 결과를 얻을 수 있는 것은 아니라는 점을 보여주는 수치이다. 게다가, 수많은 데이터 속에는 실수나 오류도 있다. 따라서, 무조건 공유한다고 해서 양질의 데이터임을 담보할 수도 없는 상황이다.

10일 업계에 따르면 데이터의 소유권을 놓고도 갈등이 발생한다. 의료계가 대표적이다. 블록체인 기술로 데이터를 관리한다는 것은 데이터를 블록으로 묶고 체인으로 위조나 변조를 불가능하게 하는 것을 말하는데, 의료 데이터의 통합과 교환은 상당히 어렵다.

그 주된 이유는 여러 병원에 정보시스템이 흩어져 있기 때문이 아니다. 이보다는 어떤 서식에 어떤 데이터가 기록되는지조차 모르는 의사들의 데이터에 대한 무개념과 함께 데이터 관리에 대한 의식이 무엇보다도 부재하기 때문이다. 국내만 보아도 대형병원들은 약 5천 종류 이상의 의료서식에 정보를 기록한다. 또한, 병원마다 서식이 다양하고 수시로 변경되어 어떤 버전이 최신인지도 모르는 상황이다.

█ 블록체인시대 데이터거버넌스의 중요성

이러한 환경에서 클라우드, IoT, AI, 블록체인 기술 등에 의지해 데이터를 무작정 올리거나 수집하는 것은 데이터 구조화에 영향을 줄 수 없다. 즉, 블록체인 기술이 의료기록의 원본 보장과 의료 물류 정보, 의료보험 청구 정보, 임상시험 및 연구 정보의 투명성 강화에 기여할 수 있을지는 몰라도, 데이터 관리 자체가 어렵기 때문에 블록체인 기반의 비즈니스 플랫폼을 만든다 해도 데이터의 통합과 상호호환성 없는 데이터의 거래가 거의 불가능에 가깝다고 판단된다.

현실적으로 기업들은 데이터에 목말라 하고 있다. 그래서 가능한 많은 데이터를 수집하기를 원한다. 이러한 데이터 수집의 중요성을 먼저 인식한 일부 ICT 기업들은 수익이 나지 않아도 데이터 소유권을 갖기 위해 관련 비즈니스를 확장하고 있다.

아래 표는 국내외 기업들이 데이터 수집을 위해 벌이는 비(非) 수익 사업들을 나열한 것이다. 예컨대 네이버가 제공하는 스노우는 당장 수익이 나지 않지만, 데이터 수집을 위해 제공되고 있다. 카카오미니, 웨이브도 마찬가지이다.

국내외 기업들의 데이터 수집 관리 위한 비수익 사업

이처럼 보다 고도화된 데이터 분석 역량과 클라우드 컴퓨팅을 함께 보유하고 있는 선두 ICT 기업들은 데이터 수집을 자사의 사업 확장으로만 끝나지 않는다. 이들은 AI 기술을 개발하고 이의 API를 과감하게 개방하는 방법을 통해 많은 개발자들이 앱을 개발하게 하여 더 많은 데이터가 자연 생성되도록 하는 양면시장 플랫폼 중심의 생태계를 구축하고 있는 것이다. 이는 이미 스마트폰 앱스토어 플랫폼 중심의 생태계에서 경험된 것이다. 블록체인도 마찬가지로 발전할 것으로 기대된다.

AI 기술 기업들이 제공하는 클라우드 컴퓨팅 기반의 API들

이들 기업들은 안드로이드와 iOS 기반의 API를 개방해 혁신적인 다양한 앱을 만들어지게 해 데이터 생성을 조장했던 것처럼, 그 성공 방정식을 AI와 블록체인 플랫폼에도 그대로 적용하면서 더 많은 데이터를 확보하는 길을 모색할 것이다. 이처럼 수익이 나지 않는 사업의 확장을 통해 데이터를 수집하는 것만 보아도 데이터가 얼마나 중요하고 필요한지를 가늠하게 된다.

█ 데이터 거버넌스의 개념 및 기능

데이터 거버넌스(data governance)는 기업에서 사용하는 데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 다루며 프라이버시, 보안성, 데이터품질, 관리규정 준수를 강조한다.

데이터의 중요성이 더해갈수록 ‘데이터 거버넌스(Data governance)’가 필요하다. 데이터 거버넌스는 먼저 각 기업이 가진 데이터 자산의 구조화된 통합 및 관리를 가능하게 하는 프레임워크를 제공해야 한다. 즉, 무결성이 높고 법적 표준을 준수하는 쉽고 효과적인 전사적 데이터 액세스를 가능하게 하여야 한다.

데이터 거버넌스는 한마디로 데이터 관리를 뜻한다. 여기에는 데이터 품질 관리 외에도 메타데이터의 관리, 데이터 인벤토리, 데이터 수명주기 관리, 데이터 액세스 및 권한 부여, 데이터 통합 등의 관리 및 통제 기능들이 포함된다. 이러한 기능들을 통해 획득한 데이터를 분석에 가장 적합한 형식으로 제공하고 얻은 통찰력에 높은 수준의 확신을 부여 할 수 있을 것이다.

리서치기관인 오범(OVUM)의 오켈레케(Okeleke) 연구원은 데이터 거버넌스의 필요성을 강조하면서 특히 데이터를 많이 가진 기업군 중 하나인 통신기업들에게 데이터 거버넌스 시스템을 갖추어 나갈 것을 제안한다. 통신기업 등의 대형 기업들은 광범위한 조직의 목표를 이해하기 위해 부서 간 협력을 촉진해 부서 간 사일로(Silo) 체제를 타파하는 거대한 데이터 거버넌스 전략을 수립해야 하며, 전략을 짜는 주체들도 각각의 개별 부서들의 목표가 표현되고 적절히 표현되도록 보장하기 위해 여러 부서 및 사업 부서에서 참여해야 한다는 것이다. 이 보고서의 정의에 의하면, 데이터 거버넌스는 데이터 소유자의 대용량 데이터가 잘 구성되고 프라이버시와 보안을 유지하면서 가능한 한 적은 수의 오류로 정확한 액세스가 정의되도록 보장하는 것을 의미한다. 이러한 기능을 통해 획득한 모든 데이터가 분석에 가장 적합한 형식으로 제공될 수 있다.

데이터 거버넌스의 주요 기능은 크게 데이터품질 관리, 메타데이터 관리, 데이터 주기 관리, 그리고 데이터 보안 및 프라이버시 등 네 가지로 구분된다. 데이터 거버넌스 기능에서 가장 중요한 것은 보다 광범위하게 사용하기 위해 우선시 할 필요가 있는 데이터의 유형을 보는 것과 프라이버시와 투명성을 확보하는 방법, 그리고 각 비즈니스 니즈에 맞춰 이에 대한 책임을 수행하는 사람들이 참여하여 전사적인 전략을 수립하고 실천에 옮기는 것이다. 데이터 거버넌스 프레임워크 하에 전략을 제대로 수립하면, 사용자들은 데이터를 더 신뢰하게 되고, 기업 내에서의 비즈니스 인사이트, 경영 의사결정, 경쟁력 제고 등에 활용할 수 있을 것이다.

데이터 거버넌스의 주요 기능

█ 데이터 거버넌스가 기업에게 주는 혜택

데이터 거버넌스 시스템을 갖추기 가장 어려운 산업이 의료산업이다.

이에, 국내 정부기관은‘헬스 아바타’사업을 시행하였는데, 의료기관에 의해 진행된 것이 아니지만 데이터 품질 및 메타 데이터 거버넌스를 위한 시작점이라 판단된다. 2017년 말 기준으로 ‘헬스 아바타’가 20개 병원의 혈액투석실에서 만성 콩팥병 환자 진료에 사용되고 있으며, 다양한 AI가 연동되고 환자의 스마트폰으로 정보가 전송되고 우울증 설문도 자동 처방되는 등의 성과가 있었다.

이의 전제는 서로 다른 유형의 데이터 통합인데, 혈액투석실로 범위를 좁혀 ISO/IEC 11179 메타데이터 표준을 적용해 사용되는 모든 의학 개념을 전문가가 하나하나 정의한 결과이다. 이 상세 정의를 참조하는 자동변환기의 개발로 병원 데이터가 추출 및 통합되기 시작했고, 의료 개념도 정리되었다. 의학 용어는 300만 개이지만 실제로 사용되는 데이터 항목이 약 15만개인데, 메타데이터 구조를 발전시킨 덕에 데이터 항목을 10분의 1로 줄였다. 이에 더해, 새 항목의 추가나 버전 관리 시스템도 갖추었다.

이처럼 의료업계를 예로 들었지만, 일반 기업들이 직접 데이터 거버넌스를 통해 숨겨진 힘의 잠재력을 확인해야 할 것이다. 이는 규제의 준수와 관련된 이슈들을 해결하는 기능도 물론 포함한다. 데이터 거버넌스는 위의 네 가지 기능에서 확인되듯이 보안만을 의미하는 것이 아니다.

다시 말해, 이는 기업이 가진 자산인 데이터를 제때에 정확히, 신뢰성 높게 활용할 수 있도록 접근성과 소유권을 부여하는 시스템을 구축하는 것이다. 따라서, 기업은 경쟁력 획득에 필요한 데이터를 찾고, 이해하고, 신뢰할 수 있도록 기업 내, 외의 이해관계자 모두에게 힘을 주는 것을 우선으로 고려해야 할 것이다.

그렇다면 실제로 데이터 거버넌스는 기업들에게 어떤 혜택을 줄까? 먼저, 데이터를 문서화(기록)하고 그 시스템을 제시하다 보면, 적절한 정책을 수립해 실천하게 되고, 자연히 데이터를 다루는 모든 이들의 책임과 역할에 도움을 주고 전사적 협력을 유도하게 될 것이다.

첫 째는 데이터 자산에 대한 놀라운 투명성 제공이다. 즉, 데이터 거버넌스는 데이터에 대한 전반적인 시각을 제공하고 데이터 액세스를 향상시켜 이전에는 이용할 수 없었던 통찰력을 얻을 수 있는 기회를 제공한다.

둘째는 더 빠르고 신속한 분석을 가능하게 한다는 점이다. 즉, 데이터 자산에 대한 집중되고 세밀한 정보와 이를 사용하는 방법을 통해 분석 사례들을 개발하고 구현하는 것이 더 쉬워진다.

셋째는 기존보다 더 향상된 데이터 품질이 생성된다는 점이다. 즉, 데이터 중복을 최소화하면 데이터 소유자는 한 버전의 진실(single version of truth) 데이터를 생성할 수 있으며, 부정확한 결론 및 불량 분석은 자연히 감소된다.

넷째는 보안이 유지된다는 점이다. 즉, 보다 세분화된 액세스 제어 정책은 데이터 수준에도 사용되어 일관된 역할 기반(role-based)의 액세스 제어가 활성화되므로, 데이터 유출(data breach)에 대한 신속한 탐지 및 대응이 가능해진다.

다섯째는 규정 준수(Regulatory compliance)가 향상된다는 점이다. 즉, 비즈니스 전반에서의 데이터 사용에 일관되게 적용되는 데이터 정책은 관련 산업계의 규정을 준수할 수 있게 한다.

마지막인 여섯 째는 비용 절감 효과가 달성된다는 점이다. 즉, 데이터 거버넌스가 제공하는 보안 기능들은 데이터 프라이버시 및 보안 침해로 인한 배상금 및 벌금과 관련된 비용을 줄여준다.

█ 블록체인 기반에서의 데이터 거버넌스의 미래

데이터 거버넌스 기능을 이해하는 데이터 소유자들이 가장 관심 갖는 것은 아직은 데이터 수집이다. 이 과정에서 특히 가장 흥미롭고 중요한 변화 가운데 하나는 데이터 소유자들의 AI 등의 기술 플랫폼 API의 개방 움직임이다. 이는 무게 중심이 기술 제공자가 아닌 비즈니스 사용자로 이동했다는 것을 의미하기도 한다.

거슬러 올라가보면 과거의 데이터는 IT부서만이 책임을 지는 기술 영역이었고 그 기능에 따른 조직과 사일로(Silo) 내부에 꼭꼭 숨겨져 있었던 것이다. 하지만, 스마트폰으로 촉발된 빅데이터 시대를 맞이하게 되면서 데이터가 넘쳐나게 된다. 따라서, 기업들은 데이터 관리가 필요하게 된다. 데이터 거버넌스가 기업들에게 잘 인식되어 시스템화되면, 데이터는 기업의 핵심 자산이 될 것이다. 또한, 개방형 플랫폼들이 생겨나면서 여러 상황에 데이터를 활용하는 모든 사용자가 데이터에 접속하며 신뢰하게 되는 상황도 필요하게 될 것이다. 최근의 페이스북 사태가 이러한 필요성을 말해주고 있다.

데이터 거버넌스의 첫 단추는 분명히 데이터 수집이고, 해당 기업들은 이를 토대로 하여 데이터 거버넌스의 네 단계를 진행해 나가게 될 것이다. 또한, 이 네 단계가 어느 정도 완성된다면, 예컨대 가장 복잡한 데이터 생태계를 가진 의료산업의 경우에도 블록체인과 AI를 잘 활용할 수 있게 될 것이다.

예컨대, 블록체인 기술 플랫폼 기반에서‘개인건강기록’원본 보장 기능이 주어지면, 자연스레 의료 기록을 환자에게 돌려주는 환자 중심의 데이터 통합과 소비자 주도형 의료 시스템 구축이 가능하게 되며, 병원-의사-환자-보험자 간 연계가 수월해질 것이다.

또한, 암호화폐를 통한 분산형 인센티브가 그동안 보험자가 떠안아야 했던 비효율성을 종결 시켜 건강 및 의료 활동을 양방향으로 촉진시킬 수 있게 할 것이다. 이는 AI 경우에도 마찬가지이다. AI 알고리즘이 만들어지는 것도 중요하지만, 그 이전에 사람들이 생성하는 데이터가 만들어지는 것이 우선임은 표 1과 표 2에서 확인되었다.

데이터의 주인은 사람이며, 데이터의 주인인 개인에게 최대한 권리를 주면서도 데이터를 활용하는 제 3자 기업에게는 최대한 개방형 플랫폼이 되어 데이터 거버넌스를 만들어 나가는 것이 필요하다. 이를 통해 AI 기반의 다양한 유형의 개인 비서 내지 요양보호사 등장이 가능하게 될 것으로 전망된다.

설수진 ajuaju123@naver.com

다른기사 보기