[칼럼] 제4차 산업혁명의 격전지 ‘인공지능 음성비서’ - 공병훈 교수
[칼럼] 제4차 산업혁명의 격전지 ‘인공지능 음성비서’ - 공병훈 교수
  • 공병훈 교수
  • 승인 2019.04.10 18:45
  • 댓글 0
이 기사를 공유합니다

[이미지 = 한송희 에디터]
[이미지 = 한송희 에디터]

혁명적 진화, 구술성 부활

지혜가 있는 사람을 뜻하는 호모사피엔스가 3만년에서 5만년 전쯤 지상에 나타나 문자를 사용하기 시작한 것은 고작 6천년 전의 일이다. 언어학자인 소쉬르(Ferdinand de Saussure)는 구술로 말하는 것이 가장 중요하며, 구술로 하는 말이 모든 커뮤니케이션의 근저(根底)를 떠받친다는 것을 강조한 바 있다. 말은 자신의 생각이나 느낌 따위를 표현하고 전달하기 위해 사용하는 소리 기호이다. 인공지능과 음성인식 기술은 ‘말(language)’의 세계가 인류의 가장 오래된 커뮤니케이션이자, 문자와 텍스트의 세계를 넘어 인류가 영원히 함께 할 세계라는 사실을 새삼 깨닫게 한다.  

흥미로운 사실은 많은 전문가들이 한 목소리로 말하는 4차 산업혁명 전쟁의 격전지가 구술, 즉 입으로 말하기와 관련되어 있다는 점이다. 각자의 영역을 구축해온 구글과 페이스북, 마이크로소프트, 아마존과 같은 글로벌 기업은 물론 삼성전자와 LG전자, 네이버 등 국내 기업들이 앞다투어 4차 산업혁명 기술 개발에 뛰어든 것만 봐도 알 수 있다. 그리고 현재까지 이 전쟁의 최고 격전지는 단연코 인공지능 음성비서 서비스다. 

이 사실은 인간이 촉각, 미각, 후각, 특히 시각과 청각으로 많은 방식으로 의사소통을 꽤하지만 결국 모든 커뮤니케이션이 구술에 기반한다는 사실을 생각하면 너무 자연스런 현상처럼 느껴지기도 한다. 인공지능 음성비서 서비스는 스마트폰과 스피커 같은 디바이스를 통해 인공지능과 말로 커뮤니케이션하는 시스템이다. 문자의 시대를 뛰어넘는 기술의 진화에 따른 구술성의 시대가 본격화하고 있다. 

인공지능 음성비서인 알렉사와 이야기하면서 콘텐츠를 사용하고 상품을 구매할 수 있게 만들어진 아마존 에코
인공지능 음성비서인 알렉사와 이야기하면서 콘텐츠를 사용하고 상품을 구매할 수 있게 만들어진 아마존 에코

인공지능 음성비서의 포문을 연 ‘아마존 알렉사’

개인 일정을 알려주며 알람을 울린다. 뉴스와 교통, 날씨 등을 검색해 알려준다. 중요한 메일을 표시하고 읽어주며 스팸을 삭제한다. 음악과 영화, 전자책을 추천하고 재생하는 것은 물론 원하는 상품을 주문해준다. 취침과 아침 기상, 외출에 따라 집안 온도를 조절한다. 이 모든 것은 $29에서 $149 전후로 판매되고 있는 인공지능 음성비서 ‘아마존 에코’에 관한 얘기다. 아마존 에코는 인공지능 비서 서비스인 알렉사(Alexa)를 탑재해 사용자의 음성에 답하도록 한 디바이스다. 

인공지능 서비스 인공지능 음성비서 서비스는 사용자의 음성을 통해 상호작용하며 개인 비서 역할을 해준다. 회사에서는 업무를 더욱 빠르고 정확하게 처리해주고, 가정에서는 사물인터넷 디바이스들을 언제 어디에서나 조절할 수 있다. 이 모든 것은 구체적인 기능을 지원하는 애플리케이션(이하 ‘앱’) ‘아마존 스킬(Amazon Skill)’이 있기에 가능하다. 아마존 스킬은 개발자들과 기업들이 앱을 추가하고 사용자들이 다운로드하며 점차 확장되고 있다. 2018년 9월 기준, 180 개국에서 5만 개 이상의 스킬을 제공하고 있다. 알렉사가 지원할 수 있는 디바이스는 2만 개 이상에 달한다. 2018년 하반기 아마존이 발표한 가장 인기 있는 스킬은 다음과 같다.  

▪ 비트 더 인트로(Beat the Intro): 노래 이름과 작곡자와 가수를 맞추는 게임 
▪ 헤드 업(Heads Up): 단서들을 통해 단어를 알아 맞추는 게임 
▪ 내셔널지오그래피 퀴즈(National Geographic Geo Quiz): 잡지 내용에 기반한 게임 
▪ 오늘의 퀴즈(Question of the Day): 예술, 오락, 문학, 과학 등 다양한 분야를 아우르는 퀴즈 
▪ 스카이림(Skyrim)과 마법의 문(The Magic Door): 음성 기반 어드벤처 게임 
▪ 크리비아 히어로우(Trivia Hero): 최대 20명까지 퀴즈로 지식을 경쟁 
▪ 세계 수학 리그(World Mathematics League): 매일 수학 문제풀이를 집단으로 경쟁 

아마존 알렉사는 인공지능 음성비서 기술의 포문을 열었다고 할 수 있다. 그리고 아마존 스킬 플랫폼을 통해 네트워크 효과가 작동되는 비즈니스 생태계를 성공시켰다고 평가 받는다. 아마존의 CEO인 제프 베조스(Jeff Bezos)는 아마존 에코를 아마존 웹 서비스, 아마존 마켓 플레이스, 아마존 프라임 멤버와 함께 비즈니스의 4대 기둥으로 소개한 바 있다. 

뿐만 아니라 아마존은 영상·음악·멀티미디어 콘텐츠·전자책·신문·잡지·음악 등을 아마존 에코의 인공지능 비서의 이름인 ‘알렉사’를 불러 이야기하는 방식으로 손쉽게 사용할 수 있게 했다. 알렉사와 ‘말’을 통해 뉴스를 듣고 인공지능과 컴퓨터 기술이 전자책 담겨 있는 시와 소설을 읽어주는 서비스가 실행되고 있는 것이다. 알렉사의 전자책 읽어주기 기능은 전자책 문서의 표준형식으로 자리잡은 이퍼브(EPUB)가 지닌 오디오 변환 기술에 기반하며 텍스트 기반의 문학과 지식의 구술성 부활이라는 혁명적 변화의 시작을 뜻할 수 있다. 참고로, 국내 전자책 플랫폼은 인공지능 기술과의 결합없이 이퍼브 전자책 읽어 주기 수준의 서비스가 활성화되고 있어서 독자들이 인공지능 음성비서를 통해 문학 작품을 들을 수 있는 날들이 멀지 않았음이 기대된다. 

사람과 말로 대화하는 스마트 디바이스

컴퓨터 기술이 발전하면서 사람들은 컴퓨터와 상호작용하는 다양한 방법을 발달시켜 왔다. 버튼, 키보드, 스위치, 마우스, 펜마우스, 터치스크린 등이다. 음성 기호인 말을 이용하는 것은 인간과 컴퓨터의 상호작용에 있어 가장 이상적인 인터페이스다. 말은 사람과 사람의 가장 태생적이며 본능적인 커뮤니케이션 도구이기 때문이다. 말을 통해 컴퓨터와 사람이 상호작용을 한다면, 필요한 것을 보다 정확하고 빠르게 얻을 수 있을 것이다. 뿐만 아니라 주변의 모든 디바이스들을 대화하면서 제어할 수 있다. 사용 방법을 모르는 새롭고 복잡한 기기를 구매해도 전혀 문제가 되지 않는다. 음성인식 기술을 통해 자유자재로 사용할 수 있기 때문이다. 

음성인식 기술은 컴퓨터나 스마트 디바이스가 마이크와 같은 소리 센서를 통해 얻은 음향학적 신호(acoustic speech signal)를 단어나 문장으로 변환한다. 보다 자세히 설명하면, 아날로그 소리에서 음향 신호를 추출한 후 잡음을 제거해 디지털 데이터(data)로 변환하고, 이 디지털 데이터의 특징과 패턴을 추출해 서버 컴퓨터에 있는 음성모델 데이터베이스(DB)와 비교한 후 어떤 의미인지를 파악하는 원리다. 

2000년대 중반만 해도 음성인식 기술은 상용화되지 못했다. 방대한 데이터 처리를 위한 컴퓨터 프로세서(CPU)가 준비되어 있지 않았기 때문이다. 음성인식 기술이 본격적으로 개발되고 상용화된 계기는 2010년 이후 스마트폰의 확산이었다. 스마트폰은 빅 데이터(big data)를 처리할 수 있는 프로세서를 지니고 있을 뿐 아니라 음성을 인식할 수 있는 마이크와 스피커를 탑재하고 있다. 또 다양한 사물인터넷 관련 칩(chip)과 센서들을 지니고 있어서 음성인식 기술을 적용하기에 최적화된 장치였다. 음성인식 기술의 진화는 아직도 진행 중이다. 단순한 명령 정도만 알아듣는 수준을 넘어, 사용자의 말투와 억양을 학습하고 음성 명령들의 패턴과 취향을 학습하는 수준으로 나아가고 있다. 

음성인식 기술은 인공지능 기술과 사물인터넷의 본격적인 확산과 맞물려 다양한 분야로 확대될 전망이다. 음성인식을 전면에 내세운 인공지능 스피커가 등장했으며, 다양한 스마트 가전 기기에 음성인식 기능이 적용되고 있다. 나아가 이제는 가전뿐만 아니라 음성인식이 적용된 스마트 차량도 곧 상용화되어 출시될 예정이다. 뿐만 아니라 의사 소견을 알아듣고 데이터를 처리하는 인공지능 병원, 음성만으로 주문을 처리하는 인공지능 마트, 주변 기후와 온도 변화에 자동으로 적응하며 수분과 영양을 공급하는 동시에 농부와 의논하며 농사를 짓는 스마트 농장, 학생과 이야기를 주고받으며 개성과 학습 역량 수준에 최적화된 내용을 제공하는 인공지능 교사 등 다양한 산업과 일상에서 활용될 전망이다. 

애플 시리와 구글 어시스턴스, 그리고 …

2011년 10월 애플은 아이폰4와 함께 시리(Siri)를 선보였다. 시리는 애플의 모바일 디바이스 운영체제인iOS에서 작동하는 자연어 처리 음성인식 개인 비서 프로그램이다. 질문에 답변하고 “사랑해”라고 말하면 “부끄러워”라고 말할 정도의 간단한 대화가 가능하다. 애플의 음성인식기술은 미국 국방부의 인공지능프로그램개발 프로젝트를 통해 개발되어 SRI 인터내셔널이 사업화한 것을 2010년 애플이 인수하면서 시작된다. 

한국어 서비스는 2012년 6월 애플의 모바일 운영체계인 iOS6부터 가능해졌다. 사용자가 말을 녹음하여 애플 서버로 전송한 다음, 뉘앙스 커뮤니케이션즈(Nuance Communications)라는 음성인식 기술을 이용해 텍스트로 변환하고 그 내용을 애플의 SRI 인공지능이 분석하고 동작을 결정해 대답을 들려주거나 앱을 동작시킨다.

구글은 2012년 7월, 자연 언어 사용자 인터페이스를 이용하여 질문에 답하고, 권고하며, 웹 서비스 집합에 요청을 위임하는 동작을 수행  구글 나우(Google Now)  서비스를 시작했다. 구글 나우는 지메일(Gmail) 계정, 위치와 검색 히스토리 등을 기반으로 사용자가 수행하는 반복 동작을 인지한 다음, ‘카드’ 형태로 관련 정보를 제공한다. 한국에서는 2014년 7월부터 ‘오케이 구글(Okay google)’이란 이름으로 상용화됐다.

2016년, 구글은 자연음성과 키보드로 상호작용하며 구글 나우 기능들을 수행하는 인공지능 가상 비서인 구글 어시스턴트(Google Assistant)를 발표한다. 구글 어시스턴스는 구글 나우와 동일한 방식으로 어시스턴트는 인터넷을 검색하고 이벤트와 알람을 스케줄링하며 사용자의 장치의 하드웨어 설정을 조정하고 사용자의 구글 계정의 정보를 표시한다. 구글 어시스턴트는 카메라를 통해 물체를 식별하고 시각적 정보를 모으며 제품 구매 및 송금 지원이 가능할 것이라고 발표된다. 

마이크로소프트(Microsoft)가 개발하고 있는 음성인식 기반 개인비서 서비스는 코타나(Cortana)이다.  코타나는 빙(Bing) 검색 엔진의 정보를 사용자의 질문에 응답하는 방식으로 윈도우폰, 윈도우10에 적용되어 있으며 2016년 기준으로 영어, 스페인어, 중국어, 독일어 지원이 가능한 상태이다. 그밖에도 일본의 NTT도코모는 샤베테콘쉐루(しゃべってコンシェル)라는 외국어 통역 서비스를 출시하기도 했다. 

애플의 시리와 구글 어시스턴스는 전화걸기, 음악 재생, 문자 전송, 일정 관리, 미리 알리기, 이메일 전송, 지도 검색, 날씨 확인, 주가 확인, 시계 기능과 알람, 연락처 확인, 메노 작성, 웹 검색, 사진 검색, 문다비 지능, 스포츠 정보 확인, 영화 정보, 식당 검색과 예약, 트윗과 페이스북 포스트 쓰기 등 다양하게 사용되고 있다. 

국내의 인공지능 음성비서

국내에서도 인공지능 음성비서에 대한 관심이 나날이 증가하고 있다. 삼성전자는 2019년부터 스마트TV에 구글의 인공지능 음성 서비스인 구글 어시스턴트를 연동시킨 빅스비(Bixby)를 제공하고 있다. 2월에 출시한 스마트폰 갤럭시S10에 인공지능 반도체(NPU)를 탑재해 음성인식 서비스의 정확도와 속도를 높였으며, 이미지 인식과 자율주행 기술을 구현해내 이목을 집중시켰다. 빅스비는 2017년 3월에 공개된 삼성전자의 갤럭시S8 탑재된 인공지능 음성비서 기술이다. 갤럭시S8에서부터 왼쪽 측면 아래에는 빅스비 전용 버튼이 있다. 

빅스비는 음성뿐만 아니라 카메라로 특정 제품을 찍으면 온라인에서 바로 구매할 수 있도록 도와주는 쇼핑 기능을 제공하는 등 카메라로 사물, 이미지, 텍스트, QR 코드 등을 인식하여 유용한 정보를 제공하게 되어 있다. 국내에서는 ‘삼성페이 쇼핑’으로 연결되고, 미국과 영국에서는 아마존과 제휴해 서비스를 제공하는 방식이다.

엘지전자가 지난 1월 출시한 휘센 싱큐 에어컨은 교감형 인공지능 기술로 인공지능이 주변 환경과 고객을 스스로 학습해 최적의 환경을 만들어준다. 사람이 주로 머무는 공간은 물론이고 실내외 온도, 습도, 공기 질 등 생활 환경과 고객의 사용패턴까지 학습해 적절한 코스로 작동한다. 묻지 않아도 상황에 따라 운전모드를 변경하고 음성으로 알려주는 것이다.  

LG전자는 스마트TV에 아마존과 구글의 인공지능 스피커와 연동, 엘지전자의 인공지능 플랫폼인 LG 씽큐(LG ThinQ)를 통해 고객 맞춤형 서비스를 제공할 예정이다. 예를 들면 엘지올레드TV에는 씽큐를 통해 인공지능 화질엔진인 알파9와 인공지능 맞춤검색, TV와 영상과 오디오 모드 제어할 수 있다. 2018년 3월 9일, LG V30S ThinQ의 출시와 함께 LG전자의 인공지능 기술인 씽큐가 적용되었으며, 제품명이 LG V30에서 LG V30 ThinQ로 변경되었다.

씽큐(ThinQ)는 당신을 생각한다는 의미의 씽크 유(Think You)와 행동을 연상시키는 큐(Cue)를 결합한 것이으로서 엘지전자의 인공지능 브랜드이다. 딥씽큐(DeepThinQ)는 엘지전자에서 자체 개발한 인공지능 플랫폼을 스마트씽큐(SmartThinQ)는 엘지전자의 사물인터넷 플랫폼을 뜻한다. 

엘지전자 자체의 인공지능 플랫폼을 탑재한 제품이나 구글 어시스턴스, 아마존 알렉사, 네이버 클로바 등을 탑재한 엘지전자 제품에도 씽큐를 붙인다. 엘지전자의 오픈 플랫폼, 오픈파트너쉽, 오픈커넥티비티 등 세상의 모든 지식을 활용하겠다는 전략에 따른 것이다. 

LG전자의 인공지능 플랫폼인 LG 씽큐는 인공지능이 주변환경과 고객을 스스로 학습하고 최적의 방식으로 동작하는 특징을 지닌다.
LG전자의 인공지능 플랫폼인 LG 씽큐는 인공지능이 주변환경과 고객을 스스로 학습하고 최적의 방식으로 동작하는 특징을 지닌다.

네이버는 2017년 5월 인공지능 플랫폼 ‘클로바(Clova)’를 공개했다. 그 해 10월엔 귀여운 디자인과 가벼운 무게로 간편하게 휴대할 수도 있는 음성인식 인공지능 스피커 ‘프렌즈’를 출시했다. 스트리밍 형태로 지원하는 API를 통해 사용자의 음성을 인식할 수 있어서 사용자는 프렌즈를 통해 음악부터 일정 관리, 메모, 알람 등 다양한 서비스를 이용할 수 있다. 텍스트를 입력하면 성우의 음성으로 자연스럽게 읽어줄 수 있으며, 아름다운 목소리로 글을 읽어주는 애플리케이션을 만들 때 주어진 텍스트를 자연스럽게 말하듯 재생해주어 음성 안내 시스템, 뉴스와 책 읽기 서비스 등에 활용할 수 있다. 

한국어 외에도 영어, 일어, 중국어 서비스를 제공하고 있는데 2019년 네이버는 클로바 앱과 클로바가 탑재된 스피커를 통해 스마트 홈 디바이스들을 관리하는 기능을 개발해 선보일 예정이다. 클로바와 연동 가능한 생활가전 기업은 LG전자, 필립스 휴(Hue), 코웨이(Coway), HK네트웍스(HK Networks), 브런트(Brunt) 등이며 있으며, 점차 증가하고 있다. 전기차 닛산 2세대 리프에 네이버 인공지능 음성인식 플랫폼 클로바가 들어갔다. 여기에는 AI음성명령, 실시간 내비게이션, 주차장, 주유소, 맛집 검색, 지니뮤직 스트리밍, 상황에 맞는 음악을 추천하는 AI플레이어, 날씨 안내, 사물인터넷 기능을 활용한 가정 내 스위치와 플러그와 가스 켜고 끄기, 프로야구, 지식검색 등 9가지 기능이 구현되었다.

공병훈

협성대 미디어영상광고학과 교수. 문예커뮤니케이션학회 학회장. 서강대 신문방송학과에서 앱(App) 가치 네트워크의 지식 생태계 모델 연구에 대한 박사논문을 썼다. 주요 연구 분야는 미디어 비즈니스, PR, 지식 생태계이며 저서로는 『4차산업혁명 상식사전』 등이 있다.


관련기사