(기획)한국, 빅데이터 활용이 부진한 이유...가시화와 큐레이션의 기본 먼저 시스템화해야
(기획)한국, 빅데이터 활용이 부진한 이유...가시화와 큐레이션의 기본 먼저 시스템화해야
  • 김창묵
  • 승인 2018.07.06 11:31
  • 댓글 0
이 기사를 공유합니다


전 세계적 IT 트렌드로 조명받게 된 빅데이터가 우리나라에서 큰 관심을 받아 급격하게 성장하기 시작한 2011년을 많은 사람들이 우리나라 빅데이터 비즈니스의 원년으로 보고 있다.


 그 이후 국내 스타트업과 주요 기업들의 빅데이터 시스템 도입 및 활용 사례가 많이 알려졌으며, 빅데이터 활용으로 인해 사회가 크게 변할 것이라는 긍정적인, 또는 부정적인 예측이 넘쳐났다. 2014년 당시에는 전 세계 빅데이터 비즈니스 시장이 501억 달러까지 성장하는 금맥으로 예측되기도 했다.


그로부터 4년이 지난 2018년 7월6일  여전히 빅데이터의 중요성에 대해서 많이 언급되고 있지만 우리나라에서 이런 전망을 뒷받침할 만한 빅데이터 활용 사례는 나오지 않고 있다. 빅데이터 시스템을 도입, 활용한 사례들이 주요 솔루션 벤더들의 자사 제품 활용 홍보 사례로서 많이 소개되고 있지만, 상당수의 사례들이 명백한 비즈니스 영향력을 보여주는 사례라고 보기는 어렵다. 심지어 최근에는 지금까지 빅데이터 비즈니스의 꽃으로 여겨졌던 데이터 과학자의 수요가 2018년부터 정체되거나 줄 것이라는 어두운 전망까지 나오고 있다.


왜 이런 일이 나타나고 있는 것일까? 정말 빅데이터 활용이 기업 경영에 미치는 영향이 크지 않기 때문일까? 빅데이터가 IT 솔루션 기업들의 마케팅 용어에 불과하기 때문일까? 아니면, 일부 사람들이 주장하는 것같이 빅데이터는 허상이고 실체가 없기 때문일까? 혹은 빅데이터라는 것이 주목할 만한 가치가 없었던 현상이었던 것일까? 대부분의 기업들이 빅데이터 활용으로 수익 구조를 대폭 개선하기에는 너무 보수적이고 경직돼 있기 때문일까?


블록체인밸리 취재진은 우리나라 빅데이터 비즈니스 분야에서 왜 아직까지 주목할 만한 성과가 나오지 못하고 있고, 우리가 앞으로 빅데이터 비즈니스에서 성공하기 위해 생각해야 할 점들을 조금 색다른 분야의 사례를 분석, 대안을 제시해 본다.


우선 빅데이터를 활용할 때 가시화와 큐레이션만큼 중요한 것이 없다. 그 것은 데이터 처리와 분석을 위한 컴퓨팅 자원의 양에 언제나 제약이 있어 모든 빅데이터를 한 번에 보거나 다룰 수 없기 때문이다.


또  인간의 두뇌가 가진 정보처리 용량도 제한이 있기 때문에 한 번에 볼 수 있거나 다룰 수 있는 데이터의 양에 제한이 있기 때문이기도 하다.  동시에 데이터 그 자체는 현실이 아니라 현실을 반영하는 추상적인 상징(symbol)에 불과한데, 이렇게 수집과 관찰의 대상이 되는 현실 세계를 추상화하여 데이터로 표현한 맥락과 그 의미를 효과적으로 전달하는 과정 자체가 또한 매우 추상적이기 때문에 직관적으로 데이터의 의미와 맥락을 이해하기 어렵다.


그래서 큐레이션의 중요성이 대두된다. 이런 이유로, 인간 두뇌로 전달되는 정보량의 90% 이상을 차지하는 시각을 이용해서 데이터를 표현하는 것은 데이터의 의미와 맥락을 빠른 시간에 파악하기 위해 매우 중요한 일이다.


빅데이터를 가시화하고 큐레이션할 때 생각해야 할 것들을 LHC 컴퓨팅 그리드의 이벤트 데이터와 모니터링 데이터 가시화 사례에서 얻은 교훈을 바탕으로 같이 고려해보면 이해가 쉽다.


■ 빅데이터 – 가시화와 큐레이션의 중요성


먼저 데이터 가시화를 효과적으로 하기 위해서는 데이터의 구조와 특성에 대해 이해해야 한다. 이 문제는 쉬울 수도 있고 어려울 수도 있다. LHC 이벤트 데이터와 같이 현상의 어떤 측면을 볼지 알고, 입자물리학 현상을 기술하는 양자장론과 같이 데이터의 의미와 구조를 설명, 해석할 때 사용할 수 있는 사고 체계나 이론이 있어 데이터의 구조와 의미를 이해하고 있는 경우에는 가시화를 어떻게 할지 알아내기가 상대적으로 쉽다. 하지만, 탐색적인 데이터 분석, 마이닝을 통해 데이터의 의미를 찾아내야 하는 경우는 데이터의 구조나 의미를 사전에 알지 못하기 때문에 데이터의 의미를 쉽게 전달하는 가시화 방법을 찾아내기까지 많은 시행착오와 노력이 필요할 수 있다.


두번째로, 데이터가 활용되는 용도에 맞게 가시화되어야 한다. 앞에서 설명한 ALICE 검출기 이벤트 데이터의 경우에, 각 이벤트가 어떤 입자 간의 상호 작용에 의해 생긴 이벤트인지 쉽게 찾을 수 있고, 이벤트의 물리량을 쉽게 계산하고 분석할 수 있는 형태로 가시화가 되어야 했다. 이 때문에, 검출기의 3차원 모델에 대비하여 이벤트 데이터를 가시화해서 보여줄 필요가 있었고, 이벤트별로 시뮬레이션 데이터와 비교하여 대응된 물리학적 메타데이터에 따라 구분되어 가시화될 필요가 있었다.


이벤트 데이터의 경우, 표준 모형에 따른 입자물리학 현상학 이론에 따라 데이터 구조와 형식이 미리 정의되어 있어서 이벤트 자체를 가시화하는 방법을 찾아내는 것은 상대적으로 쉬웠다. 표준 모형으로 예측된 새로운 입자들을 발견하는 것과 함께 초대칭성, 현상론이나 표준 모형을 넘어선 입자물리학적 현상들의 미세한 신호를 포착하기 위해서는 가시화된 이벤트 데이터를 연구자가 상호작용하면서 연구자의 분석 목적에 맞게 다양한 측면에서 데이터를 관찰할 수 있어야 했다. 이런 이유로 이벤트 데이터는 사용자의 마우스 동작에 따라 다양한 방향에서 관찰할 수 있도록 분석 프레임워크인 ROOT와 이벤트 가시화 모듈인 EVE를 이용해 연구자와 상호작용이 가능한 가시화 모델로서 만들어졌다.


앞에서 두번째로 살펴본 데이터 가시화 사례인 LHC 컴퓨팅 그리드의 모니터링 데이터 가시화의 경우에는 LHC 컴퓨팅 그리드를 운영하는 과정에서 문제가 생겼을 때 쉽게 포착하고 문제의 원인을 신속하게 추적해 들어갈 수 있도록 데이터 가시화가 되어야 했다. 이 때문에, 우선 모니터링 가시화 정보가 그 수준에 따라 계층적으로 조직되어 있어야 했고, 이런 계층적 정보 구조에 따른 표현 수준에 맞게 데이터 가시화가 되어야 했다. GridMap과 MonALISA 등의 모니터링 시스템에서 각 그리드 데이터센터 서비스 및 자원의 대표 상태를 하나의 지표로 먼저 표현해 가시화하고, 문제가 있는 그리드 데이터센터의 서비스와 자원에 세부 상태를 차츰 접근해 들어가 조사할 수 있도록 모니터링 가시화를 표현한 것은 모니터링 시스템의 목적이 전체 시스템의 문제와 그 원인을 신속하게 찾아낼 수 있어야 하기 때문이다.


이번에는 빅데이터 큐레이션을 위해 생각해야 할 것들을 역시 앞에서 살펴본 LHC 컴퓨팅 그리드의 사례를 되새기면서 같이 생각해보자.


앞서 설명한 바와 같이 인간의 두뇌가 가진 정보처리 용량의 제한과 빅데이터를 다룰 때 쓰는 컴퓨팅 시스템 자원의 한계 때문에 사람이 한 번에 볼 수 있는 정보의 양은 제한되어 있다. 빅데이터의 경우 데이터의 양이 커지거나 데이터 소스의 종류가 다양해져서 데이터가 이루는 상태 공간(configuration space)의 차원이 높아지게 되면 빅데이터의 모든 정보를 한 번에 볼 수 없기 때문에, 데이터 분석의 우선순위와 필요에 맞게 빅데이터를 보는 특정한 시점만을 부각시키는 큐레이션 과정이 필요하다.


첫번째로, 앞서 빅데이터 가시화를 위해서는 데이터의 구조와 맥락을 이해하는 과정이 필요하다고 했는데, 이것은 큐레이션 과정에서도 똑같이 적용된다. 데이터 과학자가 분석해서 파악하려고 하는 의미와 맥락에 맞게 데이터 표현과 범위가 결정되어야 하기 때문에, 빅데이터에서 어떤 측면의 정보를 추출할 것인지, 어떤 정보를 먼저 볼 것인지, 볼 정보들을 어떤 과정을 통해 관찰하고 분석할 것인지를 사전에 잘 고려하고 디자인하는 것이 좋다.


두번째로 빅데이터 큐레이션 시스템을 개발, 구축할 때 생각해야 할 것은 빅데이터를 큐레이션하는 과정이 또 하나의 빅데이터 처리, 가공 과정이 되어 때에 따라서는 빅데이터 큐레이션을 위한 빅데이터 처리 자원이 필요할 수 있다는 것이다. 큐레이션된 빅데이터와 사용자 간의 상호작용이나 응답성 요구사항에 따라 이에 맞게 제한된 시간 안에 빅데이터 처리를 해낼 수 있는 큐레이션 로직을 개발할 수 있는 하둡이나 스파, 또는 고성능 인메모리 컴퓨팅 빅데이터 기술을 선택해서 사용하는 것이 필요하게 된다.


대개의 경우 가시화 자체가 큐레이션을 포함하고 있는 경우가 많고, 큐레이션하는 과정에서 여러 가지 종류의 복잡한 가시화를 하는 경우가 많다. 이렇게 되면 가시화와 큐레이션을 위한 데이터를 가공하는 과정뿐만 아니라, 가공된 데이터 자체가 또 하나의 빅데이터가 되어서 가시화와 큐레이션을 위해 데이터를 보여주는 것만도 많은 컴퓨팅 자원을 필요로 하는 빅데이터 처리 과정이 될 수 있다. 이런 경우의 한 예로 요즘 많이 관심을 받고 있는 시간에 따른 대상(유체, 의료 영상, 기상 데이터, 3차원 상품 모델 등)의 변화를 3차원으로 같이 표현하는 4D 가시화나 AR/VR을 이용한 가시화와 큐레이션을 들 수 있다.


이렇게 가시화와 큐레이션을 위한 데이터 자체가 또 하나의 빅데이터가 되면 데이터를 가시화하고 큐레이션하기 위해 병렬 시각화(parallel visualization)와 렌더링(parallel rendering)과 같은 고급 데이터 가시화 기술이 필요할 수 있다. 되도록 가시화를 통해 표현할 정보와 데이터의 양을 줄여서 가시화 시스템을 위한 비용과 노력을 줄이는 것이 좋지만, 가시화하고 큐레이션할 데이터와 정보가 나누기 어려운 하나의 전체로 홀리스틱(holistic)하게 다뤄야 할 경우에는 어쩔 수 없이 고급 데이터 가시화 시스템과 기술을 동원할 수밖에 없다.


세번째로 위와 같은 측면을 고려하여 빅데이터 가시화, 큐레이션 시스템이 디자인, 구축되면 기존의 비즈니스 지원 시스템(BSS), 운영 지원 시스템(OSS)과 효과적으로 통합되어 비즈니스 수행과 운영 지원에 적절하게 활용되어야 한다. 빅데이터 가시화 및 큐레이션 시스템은 결국 비즈니스 및 조직 운영의 의사 결정을 신속하고 정확하게 할 수 있도록 돕는 시스템이다. 비즈니스 및 조직 운영 의사 결정을 신속하게 하도록 하기 위해서는 비즈니스 지원 시스템과 운영 지원 시스템의 일부로서 빅데이터 가시화 및 큐레이션 시스템이 이음매 없이(seamlessly) 녹아들어 있어야 한다.


네번째로, IoT 등을 통해 수집된 복잡한 비즈니스 데이터의 구조와 의미를 처음부터 완벽하게 파악할 수 없고, 이런 이유로 빅데이터 가시화 및 큐레이션 시스템의 요구사항을 모두 완벽하게 파악하여 가시화 및 큐레이션 시스템을 설계할 수 있는 경우는 거의 없다. 이 때문에, 데이터 과학자와 데이터 과학팀의 데이터 분석 결과가 신속하게 비즈니스 지원 시스템과 운영 지원 시스템으로 통합될 수 있도록 모듈화되고 확장성 있는 아키텍처를 가진 빅데이터 가시화 및 큐레이션 시스템을 선택하고 설계, 구축하는 것이 중요하다.


특히 데이터 과학자와 데이터 과학팀이 탐색적 데이터 분석을 통해 데이터 기반의 새로운 비즈니스 기회를 뒷받침할 수 있는 분석 결과를 얻었을 경우, 이러한 데이터를 활용한 새로운 비즈니스 기회가 신속하고 적절한 시점에 실행되어 비즈니스 성과로 이어질 수 있도록 분석과정에서 사용된 데이터 가시화 방법과 큐레이션된 비즈니스 정보들이 기존의 비즈니스 지원 시스템과 운영 지원 시스템에 재빠르게 적용되어 모니터링될 수 있어야 한다. 이렇게 데이터 분석에 사용된 분석 자산과 가시화 자산들이 비즈니스 지원 시스템과 운영 지원 시스템의 모니터링 가시화, 큐레이션 요소로 손쉽게 추가 통합될 수 있는 확장성 있는 빅데이터 비즈니스 시스템을 고려하는 것이 좋다.


마지막으로, 적절하게 가시화되고 큐레이션된 빅데이터는 조직 구성원들의 빅데이터 소비와 활용을 촉진하는 역할을 하기도 한다. 빅데이터를 막 도입하기 시작한 조직이나 기업에서 흔히 부딪히는 문제인 조직적인 저항과 무관심이 적절하게 갖추어진 빅데이터 가시화, 큐레이션 시스템과 활용 사례를 통해서 극복될 수도 있다.


조직 구성원들이 가시화, 큐레이션된 정보를 각 업무 영역에서 손쉽게 인용하고 활용할 수 있도록 가시화, 큐레이션된 정보의 유통 체계를 조직 내에서 갖출 수 있으면 데이터 기반 비즈니스 문화를 조직에 퍼트리는 데 도움이 될 수 있다. 이렇게 조직 내에 데이터 기반 의사 결정의 비즈니스 문화를 전파하고 정착시키기 위한 도구로서도 빅데이터 가시화, 큐레이션 시스템을 디자인하고 구축하는 것도 적극적으로 검토해볼 만 하다.


■ 데이터 분석에서의 데이터 가시화 – 이벤트 및 모니터링 데이터


그러면 데이터 가시화와 큐레이션은 무엇이고 어떤 차이가 있는 것일까? 데이터 가시화란 말 그대로 데이터의 특성과 구조를 사람이 편리하게 관찰할 수 있도록 기호화된 데이터들을 재조직하고 가공해서 새롭게 표현한 것을 말한다. 빅데이터의 큐레이션이란 빅데이터 중에서 현재 사용하고자 하는 목적과 용도에 맞게 빅데이터 일부를 추려내고 재배치하여 빅데이터가 가진 특정한 측면과 특성이 잘 드러나도록 빅데이터를 선별하고 표현을 바꾸는 것을 말한다.


가시화와 큐레이션은 엄연히 다른 개념이지만, 실제로 빅데이터를 가시화할 때에는 가시화 기능이나 내용이 큐레이션 과정을 포함하는 경우가 많다. 이것은 빅데이터의 특성상 모든 데이터를 한꺼번에 관찰하거나 시각화하기가 어려운 경우가 많아 보고자 하는 특성이나 구조만을 볼 수 있게끔 필터링, 재조직해야 하는데, 이 필터링과 재조직 과정이 큐레이션이 되는 경우가 많기 때문이다. 하지만, 보통 빅데이터 가시화의 필터링이나 재조직은 단일 종류의 빅데이터 가시화에서 특정한 조건을 만족하는 일부 데이터만 추려내는 것을 말하고, 큐레이션은 다양한 종류의 빅데이터를 동시에 써서 만든 가시화 내용을 사용자의 필요에 맞게 배치를 바꾸거나 데이터의 다양한 면을 보여주는 여러 가시화 결과를 특정한 관점에 따라 새롭게 배치, 정렬하여 보여주는 것을 말한다.


유럽의 LHC 실험 데이터 활용의 가장 중요한 목적은 우선 검출기에서 일어난 이벤트들을 눈으로 직접 관찰하고, 이를 분석하는 과정을 자동화하는 것이다. 이를 위해 검출기의 각 검출 모듈로부터 측정된 수치 데이터를 모두 모아서 검출기 전체에서 일어난 이벤트로 재구성하여 보여주어야 한다. 그냥 데이터를 모아서 데이터 가시화 도구로 그려주면 되지 않냐고 단순하게 생각할 수 있겠지만, 그렇게 단순한 문제가 아니다. 현재 LHC 연구자들이 ROOT와 GEANT를 이용해 만드는 이벤트 데이터 가시화는 빅데이터 가시화 사례 중에서도 매우 복잡한 사례에 해당하고 가시화의 중요성을 잘 보여주는 사례에 해당한다. 왜 그런지 잘 생각해보자.


먼저, 데이터가 보여주려고 하고, 데이터를 통해 나타내려고 하는 입자물리학적인 현상들을 같이 생각해보자. 힉스와 관련된 입자물리학 현상들은 현재 수 펨토미터에서 수십 펨토미터 수준의 공간에서 일어나는 것으로 알려져 있다. (펨토미터는 10-18m를 말하는 것으로, 보통 잘 알려진 원자, 분자와 관련된 현상이 일어나고 최근 집적회로 소자 기술이 많이 개발되는 나노미터 단위 공간보다 10억 배 더 작은 길이의 척도다.) 펨토미터의 공간에서 일어나는 현상들은 사람들이 맨눈으로 관찰할 수 없기 때문에 관찰하기 위해서는 힉스를 포함한 근본 입자들이 물질과 일으키는 상호작용을 이용해 간접적으로 관찰해야 한다.


힉스를 포함한 근본 입자들이 나타나기 위해서는 고에너지 상태의 입자들이 상호작용하는 상태를 만들어야 하는데, 입자들이 이렇게 고에너지 상태에서 일으키는 이벤트들은 하나의 센서에 모든 정보를 다 담을 수 없다. 현재 입자들의 궤적을 추적하기 위한 검출 장치인 CMS 검출기의 트래커(tracker)만 해도 24,244개의 실리콘 스트립 센서 모듈로 구성되어 있다[2-3]. 이 24,244개의 실리콘 스트립 센서에서 검출하는 이벤트 정보는 전체 이벤트 정보 중에서 아주 작은 단편이기 때문에, CMS 검출기 내에서 일어나는 이벤트 전체를 재구성하기 위해서는 1,000노드 이상의 분산 컴퓨팅 시스템을 이용하는 복잡한 데이터 가공 가정을 거쳐야 한다. 고휘도 LHC(High-luminosity LHC; HL-LHC) 가속기 실험을 위해 이 CMS 검출기의 트래커가 현재의 3계층에서 4계층 검출기로 업그레이드되면 이 실리콘 스트립 센서 모듈의 수는 크게 늘어날 전망이다


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.