KT는 지난 25일부터 인공지능(AI) 스피커를 통해 개그맨 박명수가 진행하는 퀴즈쇼를 내보내고 있다. 이 목소리는 박명수에게 목소리에 대한 저작권료를 지불하고 인공지능이 만든 가짜다. 인공지능이 며칠간 목소리를 학습해 박명수 특유의 발음과 억양까지 재현해낸 것이다. 실제 퀴즈쇼를 들어보니 "1번 문제, 이웃 나라 중국의 수도는 어디일까요?"라는 목소리가 크게 어색하지 않았다. KT 관계자는 "대본만 있으면 퀴즈쇼 진행이 가능하다"고 말했다. KT는 조만간 인공지능이 부모의 목소리를 학습해 아이에게 동화책을 읽어주는 서비스를 선보일 계획이다.


인공지능 스타트업 네오사피엔스는 지난달 유튜브에 '한국말 하는 트럼프' 영상을 공개했다. 실제 도널드 트럼프 미국 대통령은 한국말을 하지 못하지만 이 영상에서는 "정솽회담이 기대됩니다. 곧 만납쉬다"라며 어눌한 발음으로 한국어 연설을 한다. 이 회사의 인공지능 '아이스픽(Icepick.AI)'이 트럼프 대통령의 영어 연설 2시간 분량을 학습한 뒤 원래 목소리를 흉내 내는 것을 넘어 여러 국가의 언어까지 구사하도록 만든 것이다.


█ 인공지능 시대, 음성에 뛰어든 기업들


국내외 IT(정보기술) 기업들이 사람을 뺨칠 만큼 정교한 음성 기술에 대한 투자를 늘리고 있다. 인공지능 시대를 맞아 음성 합성•인식 등 관련 기술을 확보하는 것이 중요해졌기 때문이다. 최근 인공지능이 탑재된 가전(家電), 스피커, 앱 서비스는 모두 음성으로 작동한다. 손 하나 까딱하지 않고 "에어컨 온도 20도로 낮춰" "오늘 날씨 알려줘"라고 말하면 기기도 말로 답한다. 터치 시대를 넘어 이제는 음성 시대가 된 것이다.

 삼성전자도 이 같은 흐름에 발맞춰 최근 글로벌 뉴스룸 홈페이지에 자사(自社) 소식을 음성으로 읽어주는 기능을 도입했다. 구글 역시 이달 초 인공지능이 사람 목소리를 흉내 내 전화 예약까지 해주는 '듀플렉스(Duplex)' 기술을 선보였다.


                                        그림:블록체인밸리.   각 사 취합


인터넷 기업 네이버는 내년까지 음성 콘텐츠 개발에 총 300억원을 투자한다는 계획을 세웠다. 지난 11일에는 인공지능 스피커를 통한 '음성 쇼핑' 서비스를 선보였다. "클로바(네이버 인공지능 이름), 치킨 주문해줘"라고 하면 사전에 설정해둔 선호 메뉴와 배송지를 참고해 가까운 매장에 주문하는 방식이다.

 현재 '엔보이스(nVoice)'라는 음성 합성 기술을 바탕으로 한국어•영어•일본어•중국어를 구사하는 9개의 남녀 목소리를 쇼핑, 콘텐츠 등 여러 분야에 접목하고 있다. 박찬규 네이버 오디오플랫폼 개발 리더는 "인공지능 스피커, 커넥티드 카 등의 등장으로 오디오 콘텐츠를 즐길 수 있는 공간이 많아지고 있다"고 설명했다.

게임업체 엔씨소프트는 인공지능센터 산하에 음성 인식과 합성 기술 전문가 20여명으로 구성된 스피치랩(speech lab)을 두고 있다. 조훈영 스피치랩 실장은 "문자를 입력하는 대신 음성으로 게이머들끼리 소통하고 게임 명령도 내릴 수 있어야 한다"면서 "별도의 장비를 써야 하는 가상현실•증강현실 게임에서도 음성이 가장 편리한 명령 수단이 될 것"이라고 했다. 게임 속 캐릭터의 목소리도 지금까지는 전문 성우가 일일이 녹음했지만 앞으로는 음성 합성 기술이 활용될 전망이다.


█ 점차 고도화되는 음성 기술


더 나아가 기업들은 이용자들의 음성을 분석해 점차 고도화된 맞춤형 서비스를 제공하고 있다. 음성 파일 하나만 갖고도 이용자의 언어, 국적, 나이, 성별, 감정 상태, 출신 지역뿐 아니라 주변 환경이 지하철 역인지 자동차 혹은 집 안인지까지 파악해낸다. 이를 바탕으로 이용자가 길거리에서 '배고프다'고 말하면 주변 맛집을 알려주고 음식점에 들어가 '배고프다'고 말하면 추천 메뉴를 알려주는 식의 똑똑한 대응이 가능해진다.


유통업계는 음성을 결제 보안에 활용 중이다. KTH는 지난달 홈쇼핑 채널 K쇼핑에 이용자가 음성을 미리 등록한 뒤 "내 목소리로 인증"이라고 말하는 것만으로 결제가 끝나는 서비스를 선보였다. 녹음한 목소리를 들려줘도 안 된다. 네이버 역시 주인이 아닌 다른 목소리가 음성 쇼핑을 시도하면 결제를 거부하는 기능을 곧 추가할 예정이다. 정보통신정책연구원 최지혜 연구원은 "음성 인식 기술을 둘러싼 기업 간 경쟁은 더욱 치열해질 것"이라며 "높은 서비스 품질뿐 아니라 개인 정보 보호에 대한 신뢰를 확보하는 것도 중요하다"고 했다.

저작권자 © 파이낸셜포스트 무단전재 및 재배포 금지