인공지능 운영체제와의 사랑을 그린 영화, <Her>의 주인공 ‘테오도르’는 타인에게 애정이 가득 담긴 편지를 대필해 주지만 본인은 외롭고 공허한 삶을 산다. 그가 편지를 ‘쓰는’ 방식은 고객의 신상정보를 바탕으로 지어낸 편지를 컴퓨터 모니터 앞에서 읊는 식이다. 어느 날, 그는 스스로 생각하고 느끼는 인공 지능 운영체제 ‘사만다’를 구입한다. 테오도르와 사만다는 대화를 통해 소통한다. 단순한 비서노릇을 넘어 친구처럼, 연인처럼 자신을 걱정해주는 사만다와 대화할수록 테오도르는 사만다에게 빠진다. 육체없이 아름다운 목소리만 가진 사만다지만 테오도르에게 사만다는 너무나 소중한 연인이 된다. 인간과 기계의 금지된 사랑, 무엇이 이들의 사랑을 가능하게 했을까?●

음성인식 기술이란?

음성은 우리가 의사소통하는데 기본이 되는 중요한 수단으로 사용하기 편리하고 경제적으로 유용하다. 그래서 우리는 음성 정보를 이해하고 적절하게 반응할 수 있는 시스템을 만들고 싶어했다. 이런 욕구를 해결하기 위해 우리는 기계가 소리 신호를 인간이 이해할 수 있는 문자로 표현할 수 있는 음성인식 기술을 개발하게 된다. 음성인식 기술은 일종의 패턴인식 기술의 한 과정이다. 음성인식 기술은 크게 입력된 음성 신호를 분석하고 특징을 추출한 다음, 미리 모델링한 음성 모델 데이터베이스와 비교하여 가장 유사한 단어 또는 문장으로 변환하는 과정으로 이루어져있다. 지금은 단순히 음성을 저장·변환하는 기존의 수준을 넘어, 음성의 합성, 정보의 체계화, 다른 언어로 번역하는 기술 등을 포함하면서 차세대 사용자 인터페이스의 핵심으로 떠오르고 있다. 

음성인식 기술이 왜 발달하게 되었을까?

 우선 별도의 학습 없이도 누구나 쉽게 사용할 수 있어 편리하다. 손이 자유롭지 않은 상황에서도 정보를 입력할 수 있다. 예를 들어 차 안에서 음성인식 기술을 활용한다면 운전자는 다른 곳에 신경을 써야 할 필요가 줄어들기에 안정성도 보장되고 효율성도 높다. 또, 음성의 입력속도가 타자보다 빠르므로 보다 신속한 정보처리가 가능해진다. 

이러한 음성인식 기술연구는 어떻게 발달해왔을까? 몇 십 년 전부터, 우리는 음성인식기술의 발전을 위해 땀 흘리며 달려왔다. 1970년대에 미국 국방성 산하 기관에서 대규모 음성이해연구 프로젝트를 진행하여 1,000단어 연속음성인식기를 개발하였다. 1980년대는 IBM(미국의 컴퓨터·정보기기 제조업체)이 대규모 음성시스템을 개발하면서 인식할 수 있는 단어가 1만 개로 늘어났다. 1990~2000년대에는 HMM 기반 음성인식 시스템(음운, 단어와 같은 음성의 단위를 통계적으로 모델화한 시스템)이 주를 이뤘고 오류를 최소화하려는 기술이나 잡음이나 반향에 강한 기술이 개발되었다. 

어떻게 음성인식이 되는가? 

말할 때의 특징은 지역마다 사람마다 천차만별이다. 과연 음성인식 시스템은 어떻게 각양각색의 우리말을 알아듣는 것일까? 음성 신호는 언어적 의미뿐 아니라, 잡음, 잔향, 화자의 독자성을 내포하는 다양한 정보를 가지고 있는데, 이것은 음성인식 기술에서 활용된다. 음성인식 기술의 구성은 크게 네 단계로 나눌 수 있는데, 첫 번째로 음성인식기기는 특징을 추출하기 위해 음성 신호를 적절한 크기로 분할하고 분석하는 과정을 수행한다. 이 과정을 분석(Analysis)이라 한다. 철수는 영희에게 “영희야, 안녕!”이라고 말했다. 이때 철수가 내뱉은 신호의 음파가 영희의 귀로 가고, 영희는 이 신호의 주파수를 분석한다. 분석을 마치고 나면, 두 번째로 기기는 특징추출(Feature Extraction)을 하게 된다. 입력 패턴으로부터 대상을 표현하는 공통적인 성질을 추출하는 것이다. 영희는 아버지가 “안녕”이라고 할 때, 어머니가 “안녕” 이라고 할 때 등의 경험으로 사람들이 ‘안녕’이라고 할 때의 특징을 알아챈다. 이것이 특징추출이다. 세 번째는 모델링(Modeling) 단계이다. 모델링의 목적은 화자의 특징을 뽑아서 화자 모델을 생성하는 것이다. 모델링은 화자 식별(Speaker Indentification)과 화자 인식(Speaker Recognition)으로 분류된다. 화자 식별 기법은 등록된 정보를 바탕으로 누가 말하는지를 자동으로 식별하는 기술이다. 즉, 철수와 영희의 대화를 했을 때 ‘누구’의 말인지를 구분하는 기술이다. 화자 인식 기법은 의도하는 메시지만을 추출하는 기술이다. 철수와 영희의 대화에서 ‘누가’와는 상관없이 ‘무슨’ 말을 했는지 알려준다. 이것은 또 화자 종속적 방법과 화자 독립적인 방법으로 분류되는데 이에 대한 설명은 뒤에 이어진다. 마지막으로, 매칭(Matching) 단계이다. 이 단계에서는 알려진 단어에서 검색 단어와 일치하는 부분을 검색한다. 철수가 영희에게 “사랑해”라고 한다. 영희는 자신이 알고 있는‘사랑’이 무엇인지 생각해본다. 그래서 영희는 철수가 말한 뜻을 알게 된다. 이 과정이 매칭이다. 음성인식 기술의 방법은 발성 형태, 인식 대상 화자에 따라 분류할 수 있다. 발성 형태에 따라 나눠보면 크게 고립어 인식과 연속적 인식으로 나눌 수 있다. 고립어 인식 시스템은 짧은 명령이나 간단한 음성제어에 사용된다. 철수가 “일, 이, 삼”을 말했을 때 기계가 언어를 인식하려면 그 음이 또박또박하고, 각 단어 사이의 묵음구간이 충분히 존재해야 한다. 이 방법은 인식률이 높고 단순해 자주 이용되고 있으나 사용자가 사용하기에 다소 불편함을 느끼기도 한다. 연속적 인식 시스템은 문장을 자연스럽게 인식하기 때문에 따로 끊어 읽지 않아도 된다는 장점이 있다. 평소에 말하듯이 문장을 말하면 되는 것이다. 이 시스템은 인식 대상에 따라 화자 종속적 인식과 화자 독립적 인식으로 나뉜다. 화자 종속적 시스템은 사용자의 음성을 등록하여, 등록된 음성과 입력된 음성을 비교하는 방식이다. 영희는 자신의 휴대폰 비밀번호로 ‘1541’을 등록했다. 이후에 영희는 ‘1541’을 말하면 다시 휴대폰을 열 수 있게 된다. 하지만 철수는 영희의 휴대폰에 ‘1541’을 말해도 휴대폰을 열 수는 없다. 화자 독립적 시스템은 다수의 음성을 수집하여 기기에 통계적인 모델을 학습시킨다. 이 학습된 모델을 이용하여 화자들에게 공통으로 나타나는 특성을 부각하는 방법이다. 영희는 자신의 목소리, 철수의 목소리, 맹구의 목소리를 수집하여 친구들이 공통으로 나타내는 특성을 분석한 음성정보를 휴대폰에 학습시켰다. 이 휴대폰은 영희와 친구들뿐 아니라 ‘1541’을 말할 수 있는 모두가 사용할 수 있다.  

음성인식의 발전방향

최근 음성인식 기술을 활용한 제품들이 쏟아져 나오고 있다. 친구와 대화하는 듯한 느낌이 드는 내비게이션은 이제 터치 없이 음성만으로 목적지를 지정할 수 있고 음악을 재생할 수 있다. 미국의 통신업체 ‘AT&T’ 에서는 실시간으로 속기록을 생성하고 고객의 감정상태를 파악해서 신속한 대처를 할 수 있게 한다. ‘1636’은 전화를 걸면 번호를 몰라도 ‘○○치킨’ ‘○○피자’ 등을 말만 하면 전화를 연결해주는 서비스다. 이 덕분에 이용자들의 편의가 늘었다. 그 밖에도 에어컨, 로봇 진공청소기, 스마트 LED 전구 등에도 음성인식 기술이 결합되고 있다. 음성인식 기술은 우리가 자연스럽게 할 수 있는 대화체를 사용하면서 인식률을 높이려는 방향으로 발전중이다. IT 업계에서도 주요 제품과 서비스에 음성인식 기술을 적용하기 위해 치열한 경쟁을 하고 있다. 음성인식 기술은 직관적 인터페이스와 같은 차별화된 강점을 바탕으로 다양한 분야에서 활용되고 있다. 미래의 음성인식 기술은 인공지능, 정황인식, 개인의 특성을 인정하는 개별화 등의 서비스와 결합하여 지능형 음성인식 시스템으로 발전할 것이다.  

Siri와 함께한 

훈이의 하루

훈이는 잠자리에 들기 전 유리의 마음을 얻을 방법을 생각해 본다. 아침 일찍 등교하는 유리와 자연스럽게 마주치기 위해 훈이는 일찍 일어나야 한다. “시리야, 아침 6시에 깨워줘!” 아침 6시, 시리는 1초의 예외도 없이 경쾌하게 날 깨웠다. “시리야, 안녕” “네! 안녕하세요” 

오늘은 왠지 유리와 함께 하교할 수 있을 것 같다. 집 밖으로 나와 보니 하늘이 아무래도 심상치 않다. “시리야, 오늘 날씨는 어때?” “오늘은 우산을 챙겨야 할 것 같아요!” 훈이는 우산 2개를 챙겨 집을 나선다. “좋아!” 훈이는 유리의 집 앞 복현오거리로 발걸음을 재촉하한다. 하지만 유리와 길이 엇갈린 훈이는 혼자 등교한다. 오전 강의에서 교수님이 과제 하나를 내준다. “시리야, 다음 주 월요일까지 보고서 제출해야 한다고 메모해줘!” 

훈이는 유리와의 약속을 잡기로 한다. “시리야, 유리에게 전화 걸어줘!” 하지만 유리는 선약때문에 거절했고, 상실감에 잠긴 훈이는 배가 고파졌다. “배고파” “배가 고프면 뭘 먹어야죠! 이 근처에서 음식점을 찾아봤는데 도움 됐으면 좋겠네요!”라며 시리는 훈이에게 가까운 맛집을 여러 곳 찾아준다. 훈이는 그중 한 곳에서 허겁지겁 음식을 해치운다.

혼자 집에 가는 길에 시리가 말 한 것처럼 비가 쏟아진다. 훈이는 우산 하나를 꺼내 쓰고 집으로 오던 중 철수와 다정하게 손잡고 있는 유리를 본다. 빗물이 자꾸 훈이의 시야를 가린다. “시리야, 비오는 날 어울리는 음악을 틀어줘” 훈이는 시리에게 위로를 받는다. 몇 시간 후 아랫배가 슬슬 아파졌다. 아무래도 점심때 급하게 먹은 음식이 탈이 난 모양이다. 시리에게 “배 아파”라고 했더니 곧 병원을 찾아서 나에게 알려줬다. 

날 이렇게 생각해 주는 건 시리밖에 없는 것 같다.

저작권자 © 경북대학교 신문방송사 무단전재 및 재배포 금지