비디오 대여점이었던 넷플릭스는 시청자 취향을 저격해 영화 및 드라마를 추천해주는 시네매치 알고리즘을 통해 글로벌 미디어 공룡이 됐다. 넷플릭스가 이 알고리즘을 쉽게 구현할 수 있었던 배경에는 '데이터 레이크'가 있다.


아마존웹서비스(AWS)는 4일 서울 역삼동 사무실에서 기자간담회를 개최하고 빅데이터 활용의 새로운 해법으로 '데이터 레이크'가 주목받고 있다고 강조했다. 데이터 레이크는 막대한 양의 정형 데이터와 세분화 된 비정형 데이터를 사용자가 접근하는 시점까지 '네이티브(있는 그대로의)' 형식으로 보관하는 스토리지 저장소다.


그동안 기업들은 빅데이터 활용단계에서 데이터를 저장만 해놨지 방대한 데이터를 제대로 활용하지는 못하는 실정이었다.



양승도 AWS 솔루션 아키텍트 매니저(상무, 사진)는 "기업들이 빅데이터를 구축 및 운영하기 위해 높은 컴퓨팅 파워 시스템을 구축하고, 분석을 위한 별도의 솔루션을 도입해야 하는 등 방대한 비용이 부담스러워 제대로 실천하지 못한 측면이 있었다"고 설명했다.


그러나 데이터 레이크를 활용하면 전문 엔지니어나 데이터과학자뿐 아니라 일반 기업의 실무자도 쉽고 빠르게 원하는 데이터를 찾을 수 있다. 데이터 레이크와 연계된 머신러닝과 딥러닝 기술을 통해 데이터 정제-변환-탐색이 자동화되기 때문이다.


AWS의 데이터 레이크를 도입한 대표 고객사로는 넷플릭스가 있다. 넷플릭스는 사용자들의 시청이력·지역별·연령별·성별을 분석해 자동으로 사용자가 좋아할 만한 영화·드라마·동영상을 추천해줘 80% 이상의 소비자가 이를 선택하는 결과를 만들었다.


양 매니저는 "넷플릭스 외에 나스닥, 부동산정보제공업체 레드핀 등 다양한 기업이 데이터 레이크를 활용해 더욱 더 정교한 예측 시스템을 구현하고 있다"며 "데이터 레이크로 고객들이 빅데이터 분석이라고 해서 무조건 비용이 많이 들고 어려운 것이라는 편견을 버릴 수 있을 것"이라고 말했다.




저작권자 © 파이낸셜포스트 무단전재 및 재배포 금지