기술이 먼저인가, 비즈니스 모델이 먼저인가? – 빅데이터 비즈니스의 딜레마

유럽입자물리학연구소(CERN)가 75억 유로, 우리나라 돈으로 약 11조 원(2010년 기준)에 해당하는 막대한 예산을 들여 대형강입자가속기(The Large Hadron Collider; 이하 LHC)를 지은 이유가 무엇일까? 왜 LHC가 필요한 것일까? LHC가 만들어내는 빅데이터가 왜 그렇게 중요한 것일까? 과연 빅데이터는 인류의 문명과 4차산업혁명에 어떤 직접적 관계를 형성하고 있는가?


각종 저널(학술지), 사이언티픽 아메리카, 컴퓨터월드, 트랜스 사이언스 등 IT 및 과학 전문지의 보고서와 특집기사를 바탕으로 이 같은 질문의 답을 찾아본다.


먼저 LHC의 빅데이터 얘기를 하기 전에 LHC 실험의 배경에 대해서 간략하게 소개하고자 한다. LHC 실험이 시작된 배경과 LHC가 어떤 시설인지를 이해하면 앞으로 하게 될 LHC 빅데이터 시스템에 대한 설명도 다소 쉽게 이해할 수 있을 것이다.


LHC는 일종의 거대한 현미경이다. LHC 가속기는 두 개의 양성자빔을 반대 방향으로 빛의 속도의 99.99999999%까지 매우 빠르게 가속시켜 질량 중심 에너지가 14TeV인 고에너지 상태의 양성자빔 충돌을 일으켜 양성자빔내의 양성자들이 서로 충돌할 때 나타나는 현상을 분석하는 장치다.


LHC 가속기의 개요


LHC 가속기는 제네바 부근 스위스-프랑스 국경지방 지하 100m에 건설된 둘레 27km의 거대 실험 장치이다.


양성자빔들을 서로 충돌시키는 이유는 두 대의 자동차가 서로 부딪칠 때 일어나는 일로 비유할 수 있다. 자동차 두 대가 빠른 속도로 충돌하면, 자동차가 크게 부서지면서 자동차에 있던 각종 부속이나 부품, 구성품들이 차 바깥으로 튀어나오게 된다. 양성자빔이 충돌할 때에도 같은 일이 일어난다.

입자물리학자들이 밝혀낸 바에 따르면 양성자도 우주의 근본 입자, 즉 더 이상 쪼개지지 않는 최소 단위가 아니며, 양성자는 두 개의 업쿼크와 한 개의 다운쿼크로 이뤄진 것으로 밝혀졌다. 양성자빔들이 고에너지로 서로 충돌하면서 양성자 내부에 속박되어 있던 업쿼크와 다운쿼크가 튀어나오게 될 뿐만 아니라, 높은 에너지의 양성자와 쿼크 입자간의 상호 작용에 의해 다양한 새로운 입자가 생성되고 다양한 입자의 상호작용 현상이 나타나게 된다. 이런 현상들을 입자물리학자들은 ‘이벤트’라고 부른다.


그림 2. LHC 가속기의 구조 및 주요 장치들


LHC 실험장치는 양성자빔을 생성하고 가속하는 LINAC2, LINAC3, PS, SPS, LHC Main Ring의 가속기와, 양성자빔

충돌 현상을 관찰, 기록하기 위한 ALICE, ATLAS, CMS, LHCb 등의 검출기로 구성되어 있다.


입자물리학자들이 LHC 실험을 통해 확인하고 답을 얻고자 하는 질문들은 다음과 같다.

1. 약전자기 대칭(electroweak symmetry)은 어떻게 깨지는가? 표준 모형(The Standard Model)에서 예측하는 힉스(Higgs) 메커니즘에 의한 것인가? 그렇다면, 힉스 보존(boson)의 질량은 무엇인가?

2. 표준 모형(The Standard Model)이 중입자(Baryon) 질량의 비를 정밀히 예측하는가? 아니라면, 표준 모형을 어떻게 확장해야 하는가?

3. 초대칭(Supersymmetry)이 존재하는가? 초대칭이 예측하는 추가 입자 (초짝입자)가 존재하는가?

4. 왜 물질과 반물질 사이에 명백한 비대칭이 있는가? (CP 위반(CP Violation))

5. 끈 이론(String theory) 등에 의해 예측된 추가 차원(Extra dimension)이 실재하는가?

6. 암흑 물질(Dark matter)은 무엇으로 이뤄진 것인가? 암흑 에너지의 정체는 무엇인가?

7. 왜 중력이 다른 상호작용에 비해 터무니없이 약한가? (계층 문제(Hierarchy problem))


입자 물리학자들이 우주의 근본을 이루는 입자들이 따르는 법칙을 발견하기 위해 여러 가지 가설과 모델을 만들어 예측했던 위와 같은 질문들에 대한 답을 찾고자 만든 실험장치가 바로 LHC이다. 위의 질문들 모두 중요하지만, LHC 실험의 가장 중요한 목적은 질량을 매개하는 입자로 표준모형(The Standard Model)에서 예측된 힉스 보존의 존재를 확인하는 것이었다. (결국 LHC의 ATLAS와 CMS 검출기에서 2012년 힉스 보존이 만든 것으로 보이는 이벤트가 검출되었다. 2012년의 힉스 보존 발견으로 힉스 보존의 존재를 이론으로 예측했던 에든버러 대학의 피터 힉스 교수와 브뤼셀자유대의 프랑스와 앙글레르 교수는 2013년 노벨 물리학상을 받았다.)


CERN의 국제 공동 연구진은 힉스 입자를 발견하기 위해 양성자빔을 충돌시키는 가속기를 건설했고, 이 가속기에서 일어나는 양성자 충돌 이벤트 데이터를 수집하기 위해 필요한 조건을 공학적으로 추정했다. 1990년대 초반 수행된 LHC 가속기 및 검출기 개념 설계 연구에서 LHC 가속기에서 양성자빔 충돌 이벤트는 25나노초마다 한번, 즉 약 40MHz(초당 4,000만 번)의 빈도로 일어난다. 이벤트 데이터를 수집, 기록하기 위한 검출 장치는 한 번의 충돌에서 약 1MB의 원시 데이터(raw data)가 수집되도록 디자인되었다.


LHC의 ATLAS, CMS 등의 검출기 디자인 파라미터를 통해 계산해보면 초당 약 10억 번의 양성자-양성자 충돌이 일어나기 때문에, 초당 발생하는 데이터는 약 1PB가 된다[5]. 이렇게 LHC에서 일어나는 현상을 분석하는 데 필요한 분석 시스템의 요구 사항을 정의하다 보니 당시로써는 상상할 수도 없을 만큼의 큰 데이터를 다뤄야 한다는 사실을 알게 되었다. 이것이 LHC 빅데이터 연구의 시작이었다.


LHC 건설 당시나 현재나 초당 1PB의 데이터를 모두 저장할 수 있는 데이터 저장 장치가 없을 뿐만 아니라, LHC를 건설할 당시의 전자공학 기술들로도 초당 1PB의 대용량 데이터를 처리, 가공할 수 없었다. 이런 기술적인 한계 때문에 현재 LHC 검출기의 데이터 처리 시스템에서는 원시 데이터의 약 1천분의 1인 초당 약 200개의 이벤트 데이터만 저장할 수 있었다. 일종의 필터링 시스템인 Level 1 트리거(trigger) 시스템에서 원시 데이터의 천분의 일만 버퍼에 저장해 처리하기 때문에 초당 약 200MB에서 1TB의 데이터가 생성되게 된다.


LHC는 하루에 10시간 동안 실험을 두 번 수행하게 되고, 1년에 300일 동안 양성자빔을 LHC 주 가속기(main ring)에 가둬 놓고 실험하게 된다. 위에서 얘기한 초당 200MB~1TB 데이터양에 LHC 운영 시간을 곱하고, LHC에서 운영되는 주 검출장치가 ATLAS, CMS, ALICE, LHCb 4대인 점을 고려하면 연간 LHC의 검출기들이 생산하는 데이터양이 약 15PB로 추산할 수 있다.


이렇게 추산한 데이터양을 바탕으로 2009년까지 LHC 빅데이터 처리를 위한 LHC 컴퓨팅 그리드를 연구개발, 구축하는 데 든 비용은 2009년 당시 CERN에서만 총 1억 6,800만 스위스 프랑, 우리나라 돈으로 약 1,700억 원에 달한다[6]. 이 비용은 CERN에서만의 비용이기 때문에, LHC 컴퓨팅 그리드에 참여한 국가별 티어-1, 티어-2 데이터센터의 LHC 컴퓨팅 그리드 구축 비용을 합치면 1조 원 이상이 투자됐을 것으로 보인다. LHC는 비용으로도 큰 프로젝트이지만, 데이터 처리를 위한 LHC 컴퓨팅 그리드 개발, 구축 및 통합만도 20여 년의 긴 시간이 소요된 큰 프로젝트였다.


위의 데이터 생산량 추정치를 넘어서는 데이터가 이미 LHC 검출기들에서 생산되고 있다. Run 1 기간이었던 2011년도에 이미 23PB, 2012년도에 이미 27PB의 데이터가 수집되었으며, Run 2 기간인 2015년에는 40PB의 원시데이터를 생산했다고 알려졌다. 곧 LHC가 Super-LHC로 성능이 업그레이드된 후 운영될 Run 3 기간(2020년~2022년)에는 연간 150PB, Run 4 기간(2023년~2029년)에는 연간 600PB의 데이터가 생산될 것으로 추정된다. 2028년까지 누적 데이터는 벌써 3.8Exabyte (3743PB)에 이를 것으로 추정되고 있다.


█ 기술이 먼저인가, 비즈니스 모델이 먼저인가? – 빅데이터 비즈니스의 딜레마


빅데이터 비즈니스에서 항상 의견이 갈리는 부분 중의 하나가 비즈니스 모델이 먼저인가, 아니면 빅데이터 기술이 먼저인가 하는 부분이다. 마치 닭이 먼저냐, 달걀이 먼저냐 하는 문제 같아서 쉽게 결론을 내리기는 어렵지만, 필자는 비즈니스 모델이 먼저라는 얘기를 하고 싶다.


CERN의 과학자들이 LHC 실험을 시작한 것은 빅데이터 기술을 가지고 할 일을 찾기 위해 시작한 것이 아니었다. CERN에서 일하는 과학자들의 임무는 우주를 구성하는 근본 입자들이 따르는 물리적인 법칙과 근본 입자들을 탐색하고 찾아내는 것이었다. 그들의 임무를 온전하게 수행하기 위해서 높은 에너지의 양성자빔을 충돌시켜 실험할 필요가 있었던 것이다.


높은 에너지의 양성자빔을 충돌시킬 때 일어나는 입자 간 상호작용 현상을 기록하려다 보니, 입자의 궤적과 에너지 등의 정보를 기록할 수 있는 검출장치가 필요하게 되었다. 양성자빔들이 14TeV의 고에너지로 충돌해 생성된 입자들이 워낙 멀리까지 궤적을 그려서, 정확한 현상 분석을 위해 검출기의 크기가 커져 저장해야 하는 데이터의 양도 많아진 것이다.


양성자빔이 빛의 속도의 99.99999999%로 운동하기 때문에 2개의 양성자빔이 충돌하는 빈도도 초당 40만 번으로 매우 빠르게 일어나게 된다. 이렇게 빠르게 일어나는 양성자빔 충돌 때문에 초당 1PB의 데이터가 생성돼, LHC 컴퓨팅 그리드와 같은 막대한 양의 데이터를 처리, 분석할 수 있는 기술을 개발하게 된 것이다. LHC 실험을 수행하려던 과학자들에게 빅데이터는 그들 본연의 임무를 수행하기 위해 넘어서야 했던 기술적인 난제였던 것이지, 양성자빔 충돌을 빅데이터 기술을 써서 분석하면 모든 물리학적 문제가 풀리리라 생각했던 것은 아니었다.


기업인 상당수가 뚜렷한 비즈니스 모델이나 빅데이터 기술을 왜 쓰려고 하는지에 대한 문제 분석 없이 막연하게 빅데이터 기술을 써서 데이터를 모으고 분석만 하면 조직의 많은 문제가 풀리리라 생각하는 것 같다. 심지어는 데이터의 양이 많지도 않고, 기존에 이미 구축해놓은 데이터웨어하우스 시스템을 활용해도 충분한 문제에 대해서도 공연히 하둡 같은 빅데이터 인프라를 도입하기도 한다.


풀어야 할 비즈니스상의 문제, 빅데이터 시스템의 도입 목적을 분명하게 하지 않고 도입한 빅데이터 인프라들은 제대로 활용되기 어렵다. 막연하게 ‘데이터를 쌓아놓고 빅데이터 기술로 분석하면 유용한 정보가 나오겠지’라는 식의 접근도 빅데이터 시스템 도입의 효과를 보지 못하는 이유가 된다. 빅데이터 기술도 분명히 기술 나름의 한계가 있으며, 이러한 한계를 적절하게 평가하지 않고 새로운 기술이라고 해서 도입하는 것은 기업에 부담이 되고 투자 위험으로 돌아오게 된다.


빅데이터 자체가 비즈니스의 목적이나 비즈니스 모델이 될 수는 없다. 빅데이터를 다루는 것은 데이터 기반 비즈니스의 한 단면에 불과하다. 빅데이터를 수집하고 비즈니스에 맞는 정보로 가공하는 과정에서, 빅데이터를 비즈니스 운영 조건에 맞게끔 신속하고 빠르게 처리하는 시스템을 갖추는 과정에서 비즈니스의 경쟁력으로서 자리 잡게 된다. 빅데이터나 빅데이터 기술에 초점을 맞추기보다는, 지금 기업이나 조직이 당면한 문제, 해결해야 할 문제가 무엇인지 분명하게 정의하는 것이 중요하며 선행돼야 한다.


문제를 정의한 후 목표로 하는 비즈니스를 하려면 빅데이터 수집이 필요하다는 공감이 조직 내에 자리 잡아야 한다. 수집한 빅데이터를 처리ㆍ가공하여 가치 있는 정보로 바꾸는, 기업만의 차별화된 시스템을 갖추는 것이 경쟁사에 대한 튼튼한 진입장벽이라는 면밀한 검토와 확신이 필요하다.


이렇게 준비된 빅데이터 인프라가 비즈니스에 분명한 효과를 가져오리라는 판단이 들었을 때 빅데이터 시스템과 인프라를 도입하는 것이다. 빅데이터 시스템은 아무리 작은 규모로 도입하더라도 적지 않은 투자와 노력이 필요하고, 적절하게 활용되지 못하는 빅데이터 시스템은 이러한 투자와 노력을 의미 없는 것으로 만들기 때문에 빅데이터 시스템 도입은 신중해야 하는 것이다.


빅데이터를 기업의 금맥으로 만들어주는 것은 비즈니스 모델에 대한 철저한 고민과 분석, 빅데이터가 비즈니스 모델의 진입 장벽과 경쟁력으로서 효과가 있다는 확신으로부터 시작된다. 빅데이터 기술, 데이터 수집과 분석을 사업에서 부딪히는 문제에 대한 만병통치약으로 보는 실수를 하지 않도록 조심해야 할 것이다.


█ LHC 검출기 및 가속기 데이터의 수집과 측정


빅데이터 가공 과정에서 첨단 기술이 가장 많이 필요한 부분은 측정과 수집 부분이다.
LHC의 입자 검출기들은 소립자 세계를 들여다보는 일종의 현미경, 사진기와 같다고 지난 첫 번째 연재(How-to-Big Data 1 – 빅데이터 비즈니스의 근본적인 질문)에서 잠깐 언급했었다. 사실 눈에 보이지도 않는 나노(10^-9m), 펨토(10^-12m), 아토(10^-15m) 스케일, 심지어 관찰 가능한 물리 현상이 일어날 수 있는 공간적인 한계로 받아들여지고 있는 플랑크 스케일(1.61622938×10^−35m) 수준에서 일어나는 현상들은 눈으로 직접 관찰할 수 없기 때문에 이런 현상을 관찰하기 위한 방법을 고안하는 것 자체가 기술적인 난제다.


원자, 분자, 소립자들과 같이 눈에 보이지 않는 영역을 관찰하는 것 자체가 근본적인 철학적인 문제를 제기한다. 이 때문에 20세기 초반 물리학자들은 양자역학을 개발하는 초기 과정에서 불확정성 원리로 대표되는 자연 현상 인식의 한계와 양자역학의 물리학적 해석 문제에 대해 많은 논란을 벌이기도 했다. (신기하게도 양자역학을 고안하면서 알게 된 측정 과정의 철학적인 문제들은 소셜 빅데이터 수집에서도 비슷하게 나타난다. 자세한 내용은 이후에 다시 언급하기로 한다.)


LHC에서 입자들의 정보를 얻기 위해 측정하는 물리량은 여러 종류가 있는데, 이중에서 독자분들이 상대적으로 이해하기 쉬운 입자들의 궤적 측정 방법에 대해 살펴보기로 하자. 입자들의 궤적(trajectory)이란 입자가 이동하는 경로를 물리학 전문용어로 말한 것이다. 소립자들이 빛의 속도에 가까운 아주 빠른 속도로 움직일 뿐 아니라, 입자들의 크기도 나노, 펨토미터 수준으로 아주 작기 때문에 눈으로 직접 관찰할 수 없다. 입자들이 고유하게 가진 질량, 전하, 자기 모멘트(magnetic moment; 또는 자기 스핀(magnetic spin)이라고도 함) 등의 물리적인 성질 때문에 주변 물질과 상호작용하면서 남기는 흔적을 추적해서 입자들의 운동 경로를 기록하게 된다.


20세기 초 중반에는 입자들의 궤적을 기록하기 위해 안개상자(cloud chamber; Wilson chamber)라는 장치를 사용했다. 안개상자는 수증기나 메탄올 가스를 넣은 용기의 압력을 낮추어 용기를 과포화(supersaturation) 상태로 만들고, 이 용기 안에서 고에너지 입자를 생성, 상호작용 시키고 운동하도록 한다. 이렇게 과포화된 수증기나 메탄올 가스를 고에너지 입자가 통과하게 되면 고에너지 입자가 가스 입자를 이온화시키면서 생긴 전하 때문에 입자가 움직이는 경로를 따라 수증기, 또는 메탄올 가스 입자가 응집되어 흔적을 남기게 된다. 이렇게 입자가 안개상자에 남긴 흔적을 사진으로 촬영, 분석하면 어떤 입자가 생성되어 어떤 상호작용을 했는지 판독할 수 있게 된다. 아래의 그림 1의 왼편에 있는 것이 CERN 설립 초반에 사용했던 대형 안개상자고, 오른편이 안개상자에 기록된 입자들의 궤적이 사진으로 기록된 모습이다.


CERN에서 사용한 대형 안개상자(cloud chamber)와 안개상자를 이용해 촬영한 입자들의 궤적


그림 출처: CERN Document Archive


위의 안개상자는 궤적을 관찰하려는 입자의 에너지가 높을수록 더 큰 크기의 용기(chamber)가 필요하다. 현대 입자 물리학에서 관심을 가지고 연구하는 쿼크 등의 소립자들이 만드는 현상을 기록하기에는 시간, 공간 정밀도가 낮아 사용하기 어렵다. 이런 이유로 현대 입자 물리학에서는 소립자들의 궤적을 기록하기 위해 실리콘과 같은 반도체 물질을 이용한 센서와 정밀 전자 회로를 이용해 정밀한 궤적 기록을 한다.


아래의 그림 2는 실리콘 센서 패널을 이용한 궤적 검출기(tracker)이다. 실리콘 센서에 전하를 가진 입자가 지나가면 입자가 실리콘 센서 내 실리콘 원자를 이온화시키면서 실리콘의 전도 밴드(conduction band)에 전류로 수 있는 전자를 발생시킨다. 이렇게 생긴 전자는 실리콘 결정 내에 전류를 발생시키게 된다. 이런 단위 실리콘 센서(픽셀)를 아래 그림 3과 같이 일정한 크기로 반복적으로 붙여 센서 기판으로 제조하게 된다. 단위 실리콘 센서의 아래층에는 실리콘 센서에서 발생한 전류를 읽어 신호로 변환해주는 신호 수신 칩(readout chip)이 센서와 혹같이 생긴 회로를 통해 연결되어 있다. 이렇게 신호 수신 칩에서 검출된 전류 신호를 통해 실리콘 센서 패널의 어느 픽셀에서 입자가 지나갔는지를 판독하여 데이터 수집 회로를 통해 외부 컴퓨팅 시스템으로 전송하게 된다.


위의 실리콘 센서 패널을 이용한 궤적 검출기는 궤적의 공간 해상도가 실리콘 센서의 크기에 의해 결정된다. CMS 검출기에 쓰인 실리콘 하이브리드 픽셀 검출기의 경우는 하나의 실리콘 센서 픽셀이 길이 150µm, 폭 100µm, 깊이 270µm의 크기로, CMS 검출기 내 원통형 모양의 공간을 약 4,800만 개의 픽셀로 분해하여 궤적을 추적할 수 있는 정밀도를 가지고 있다. 이 픽셀들로 재구성할 수 있는 공간 해상도보다 더 작은 스케일로 일어난 입자의 이동 경로는 이 실리콘 센서 픽셀 검출기로는 검출과 재구성이 되지 않는다.


CMS 검출기의 하이브리드 실리콘 픽셀 궤적 검출기(tracker)와 실리콘 센서 전자 회로 모듈


그림 출처: (왼편) HEPHY Homepage - Der CMS Tracker, http://www.hephy.at/de/cmstracker/ (오른편)

DESY CMS Group - CMS Tracker Design for HL-LHC, http://cms.desy.de/e53612/e155175/e155179/


위와 같이 소립자들을 관찰하기 위해서는 소립자들이 주변과 어떤 상호작용을 하는지 이해하고 있어야 한다. 우리가 흔히 관찰한다고 하면 사람의 오감을 이용해서 관찰하는 것을 생각하기 때문에 관찰 과정에 대해 특별히 깊은 생각을 하지 않는다. 하지만, 눈에 보이지 않고, 인간의 오감을 넘어서는 대상을 관찰할 경우에는 우리가 관찰하는 대상이 환경과 관찰자와 어떻게 상호작용하게 될지 이해해야만 무엇을 관찰하고 관찰 과정을 어떻게 설계할지 알게 된다.


우리가 관찰하고 측정하는 대상에 대해 잘 알고 있다면 관찰, 측정을 위한 데이터 수집 과정을 이해하고 데이터 분석을 보다 정확하게 할 수 있다. 만약 관찰하고 측정하는 대상이 미지의 것이고 모르는 것이라면, 우리가 가진 지식을 이용해서 가설을 세우고 지식의 지평선을 넓혀가는 과학적 탐구의 과정을 거쳐야 한다. 데이터가 어떻게 수집되었고, 데이터가 뭘 말하고 데이터가 보여주는 대상의 한계가 어디까지인지 이해하지 못한 상태에서 수행하는 데이터 분석은 아무 의미도 없다.


█ 빅데이터 비즈니스의 데이터 수집과 측정 – 수집 과정과 비즈니스 모델과의 관계


위에서 CMS 검출기 중 입자의 이동 경로를 기록하는 안개상자와 하이브리드 실리콘 픽셀 궤적 검출기에 대해 간단하게 살펴보면서 데이터가 만들어지는 과정과 데이터의 한계를 이해하지 못한다면 데이터 분석이 의미 없다는 얘기를 했다. 사실 관찰과 측정에 관해서만도 아직도 깊게 논의해야 할 것이 많지만 여기서는 생략하고, 빅데이터 비즈니스가 과연 이런 과학 실험에서의 측정과 데이터 수집과 어떻게 관련 있는지 생각해 보자.


먼저 빅데이터 비즈니스에서 보통 많이 다루는 데이터의 수집 과정을 살펴보자. 요즘 미디어에서 제일 많이 언급되는 빅데이터는 역시 검색엔진을 통해 볼 수 있는 웹 빅데이터와 소셜 네트워크 서비스를 통해 수집되는 소셜 네트워크 데이터들이다. 웹 데이터는 꼭 사람들에 대한 데이터만을 수집하는 것은 아니지만, 웹 빅데이터와 소셜 네트워크 빅데이터 모두 비즈니스와 연관해서는 사람들에 대한 데이터를 수집하는 관점에서 많이 다뤄진다.


데이터 수집 대상이 사람인 경우의 다자 플랫폼 비즈니스 모델의 예


                                            그림    한국인터넷진흥원

                                       

사람들에게 자신에 대한 개인 정보를 내놓도록 하려면 그런 정보를 주어야만 받을 수 있는 제품이나 서비스를 제공하고, 그 대가로 개인 정보를 수집해야 한다. 제일 대표적인 것이 소셜 네트워크 서비스다. 소셜 네트워크 서비스는 사람들이 개인 정보를 올리고 이를 이용해 다른 사람들과 온라인으로 쉽게 관계를 맺으며 즐겁게 할 수 있는 서비스를 제공함으로써 사람들의 신상 정보와 취향과 같은 다양한 개인 정보를 수집한다. 이런 개인 정보는 적절하게 가공되어 사람들의 개인 정보를 필요로 하는 광고회사나 온라인 마케팅 회사들에 제공되고, 이들 광고회사나 온라인 마케팅 회사들이 개인화된 상품 추천이나 마케팅 등에 개인 정보를 활용하게 된다.


결국은 데이터 흐름으로 중심으로 그려지는 플랫폼 비즈니스 모델을 통해 데이터가 수집되고 또 다른 비즈니스로 연결된다. 이런 비즈니스 모델은 요즘은 너무 흔해져서 누구나 잘 알고 있다. 이렇게 플랫폼을 통해서 서비스를 제공하고 개개인에 대한 정보를 수집하는 과정이 바로 일종의 측정 과정이 된다.


여기서, 수집된 개인정보가 대상이 되는 각 사람에 대해 얼마나 정확한 정보를 주는지는 보통 잘 고려하지 않는다. 만약 이런 비즈니스 모델이나 플랫폼을 통해서 아무리 많은 개인 정보를 모았다고 한들, 사람들이 제공한 정보가 정확하지 않다면 이런 데이터를 이용한 비즈니스는 크게 효과도 없을 것이고 성공하지도 못할 것이다. 사용자들이 자신들의 정확한 개인 정보를 기꺼이 내놓을 만큼 가치 있다고 믿는 서비스를 제공하지 않는다면 양질의 개인 정보 데이터를 얻는 것은 매우 어렵다.

위와 같은 개인 정보 수집 시에, 사람들이 만약 서비스를 받는 과정에서 자신의 정보 수집이나 측정 과정에 대한 내용을 알고 있을 때는 사람들이 주는 정보가 달라질 수 있음을 고려해야 한다. 사람들은 기계와는 달리 자신이 하는 행동에 대해 생각하고 성찰할 수 있는 능력이 있고, 이러한 자신의 행동에 대한 생각과 성찰은 일종의 재귀적인(recursive) 피드백으로 작용하여 서비스의 대가로 제공하는 사람들이 보이는 반응과 정보에 영향을 줄 수 있다.


이러한 효과의 대표적인 예가 페이스북의 데이터과학자인 아담 크레이머와 코넬대의 제이미 길로이, 제프리 핸콕이 미국의 저명 학술지인 미국 국립과학원보(PNAS)에 2014년에 공동 발표한 논문을 통해 논란이 되었던 페이스북의 감정 조작 실험 논란이다. 2012년 68만 9,003명의 뉴스피드에서 긍정적 또는 부정적 단어가 들어간 콘텐츠를 사용자 몰래 삭제하여 긍정적인, 또는 부정적인 감정을 사용자에게 유발하고, 그에 따라 사용자가 긍정적이거나 부정적인 콘텐츠를 작성하게 되는지 확인한 실험에서 사용자는 뉴스피드의 조작에 따라 긍정적인, 또는 부정적인 감정을 사용자가 겪게끔 영향을 줄 수 있다는 것을 확인하였다.


이 실험은 그 실험 결과 자체도 많은 논란을 불러일으켰지만, 이렇게 소셜 네트워크를 통해 사람들의 감정이 조작되고 전파될 수 있다는 사실이 사람들을 통해 알려지면서 사람들이 소셜 네트워크 서비스를 이용하면서 제공하는 개인 정보에 대한 불안감이 확산되었다는 것이 더 큰 문제였다. 이런 경우라면 페이스북을 통해 보다 정확한 사용자들의 정보와 데이터를 수집하기가 더 어려워질 수 있다.


LHC 실험을 분석할 때 사용하는 양자역학 및 양자장론의 핵심 아이디어 중의 하나는, 우리가 자연의 어떤 대상을 관찰하는 행위 그 자체가 대상에 영향을 주어 대상을 변화시키기 때문에, 관찰, 측정하는 결과를 해석할 때 이렇게 관찰과 측정 과정 자체가 대상에 주는 변화를 고려해서 해석해야 한다는 것이다. 이런 양자역학의 기본 생각은 우리가 개인 정보를 수집하거나, 센서 네트워크를 통해 환경에 대한 정보를 수집할 때에도 비슷하게 적용된다.

특히 대상이 사람인 경우, 위의 감정 조작 실험 논란에서 입증된 바와 같이 사람들의 감정이나 생각에 관련된 데이터를 수집하는 과정 그 자체가 수집되는 데이터에 변화를 줄 수 있다. 이런 효과가 고려되지 않으면, 이런 데이터를 분석해서 얻은 통찰이라는 것은 오히려 잘못된 결정을 내리게 할 수 있으므로 더 위험할 수 있다.


두 번째로, 최근 많이 등장하는 빅데이터는 다양하고 많은 센서를 통해 동시다발적으로 연속적으로 수집되는 데이터이다. 센서들이 측정하는 대상이 사람들이 될 수도 있겠지만, 이런 데이터 수집 방법은 관찰의 대상이 되는 사람들의 의지와는 관계없이 센서 및 측정 기계들의 연속적인 동작을 통해 자동화된 방법으로 수집된다. 이런 센서들은 사람에 대한 데이터도 수집하지만, 보통은 환경이나 기계에 대한 데이터를 연속적으로 수집하는 데 많이 이용된다.


센서를 이용한 연속적인 데이터 수집 과정을 위해서는 어떤 센서를 어느 정도의 양으로 어떤 위치에 설치하여 대상에 대한 어떤 정보를 수집할 것인지 설계하는 과정이 필요하다. 최근 아마존이 공개한 무인 온라인 스토어인 아마존고(Amazon Go) 매장을 한번 생각해보자. 우선 매장 안에서 사람들이 구입한 물건이나 사람들의 구매 행동에 관한 정보를 수집하기에 최적인 영상센서와 RFID 등의 센서 설치 장소를 매장 내에서 선별해야 할 것이다. 이러한 센서 설치 장소를 고르기 위해서는 사람들이 물건을 구매할 때 보이는 행동이나 패턴, 스토어안에서 사람들이 구매를 하면서 보이는 행동 양식에 대한 구체적인 정보와 이해가 필요할 것이다. 그래야 이런 정보를 이용해 고객들이 어떤 물건을 구입하려 하는지 센서 데이터를 분석하여 알아낼 수 있기 때문이다. 매장 운영을 위해 가장 중요한 정보인 사람들이 구매한 물건의 종류 및 수량을 영상 센서와 RFID 등의 센서를 통해 알아내기 위해서는 매장 내 전시된 품목들의 위치와 수량에 관한 정보가 센서 정보 처리에 같이 연관되어야 할 것이다.


이렇게 대상으로부터 연속적인 데이터를 기계적이고 자동화된 방식으로 수집할 때에도 데이터를 수집하는 센서나 데이터 수집 장치가 대상의 어떤 정보와 상태를 보는지, 그리고 어떤 원리로 이런 정보와 상태를 데이터로 만드는지 이해하는 것이 필요하다. 센서의 수와 위치가 적절치 않고, 데이터 수집에 꼭 필요한 관련 정보를 수집한 센서 정보와 적절하게 연결하지 못한다면 아무리 많은 데이터를 촘촘하게 모은다 해도 관찰하는 대상에 대한 정확한 정보로 가공할 수는 없을 것이기 때문이다.


위에서 살펴본 바와 같이, 데이터 수집 과정이 비즈니스 모델을 지원할 수 있도록 적절하게 설계되지 않으면 비즈니스를 지탱할 수 있는 적절한 데이터가 아예 수집될 수 없다. 데이터 수집 과정에 필요한 측정 대상과 데이터와의 관계, 데이터 수집 과정에서 얻을 수 있는 데이터의 한계 및 제약, 데이터가 줄 수 있는 대상에 대한 정보의 한계에 대해 적절하게 평가하지 않고 수집한 데이터는 자칫 비즈니스에 영향을 줄 수 있는 중요한 의사 결정을 의미 없게 만들 수 있다.

지금까지 생각해본 데이터 수집 과정의 다양한 이슈를 고려해서, 빅데이터 비즈니스 모델을 어떻게 설계할 것인지 다음 연재에서 같이 살펴보고 데이터 수집에 관한 생각들을 마무리하려고 한다.



저작권자 © 파이낸셜포스트 무단전재 및 재배포 금지