딥보이스, 목소리부터 감정까지 복제하다

기자명 김규빈 수습기자 (webmaster@skkuw.com)

아이유의 목소리로 부른 박효신의 ‘야생화’, 브루노 마스의 목소리로 부른 뉴진스의 ‘Hype boy’를 들어본 적이 있는가? 아이유나 브루노 마스가 실제로 부른 노래가 아니라 가상의 목소리로 구현해 낸 딥보이스로 만들어진 노래다. 딥보이스는 무엇이며 어떤 원리로 작동하는 것일까?

녹음하지 않아도 자연스러운 음성을 합성해내는 딥보이스
악용 사례가 증가하는 만큼 대응책도 절실해

딥보이스란 무엇일까
AI의 핵심 기술인 딥러닝과 ‘페이크 보이스(가짜 음성)’를 합친 신조어인 딥보이스는 음성 △변조△복제△합성 기술이다. 딥보이스는 합성 기술이라는 점에서는 딥페이크와 유사하지만, 영상을 합성하는 딥페이크와 달리 음성을 합성하는 기술이다. 실제로 가수 옥주현의 목소리를 학습한 AI가 박효신의 ‘야생화’를 부르는 무대를 본 김은교(경영 23) 학우는 “실제 가수와 AI 두 개의 목소리가 있다는 것을 몰랐다면 전혀 구분하지 못할 정도로 유사해 놀라웠다”고 소감을 전했다.

최근 스마트 스피커의 판매가 급증하고, 자동차와 스마트 TV 등에 음성 AI가 활용돼 음성 AI 시장이 빠르게 부상하고 있다. 특히 음성 AI 중 딥보이스는 적은 양의 데이터로 자연스러운 음성을 구현할 수 있어 그 활용도가 더욱 높아질 것으로 기대된다. 숭실대 전자정보공학부 정수환 교수는 “딥보이스는 기술의 발전으로 사람의 감정까지도 목소리에 녹여낼 수 있다”며 “엄마의 목소리로 읽어주는 구연동화, 손주의 목소리로 안내하는 인공지능 스피커 등에서 활용된다”고 밝혔다. 딥보이스는 성우, 앵커 등 목소리 더빙 분야에서도 활발히 활용된다. 지난해 10월에 공개된 오디오 드라마 ‘어서 오세요, 휴남동 서점입니다’에서는 출연진 19명 중 8명의 배역을 AI 목소리가 연기하기도 했다. 이제 AI 음성은 딱딱한 기계음에서 벗어나 딥보이스를 통해 즐거움, 슬픔, 화남 등의 감정을 표현할 수 있는 수준까지 발전한 것이다.

딥러닝을 학습한 음성 합성 기술
딥보이스는 음성 합성 기술을 기반으로 활용된다. 음성 합성 기술은 음성 합성기를 통해 단어의 가장 최소 단위인 음소를 음성으로 구현해 낸다. 그러나 같은 음소라도 위치에 따라 서로 다른 소리를 가진다. 예를 들어 ‘학교’라는 단어의 발음은 [학꾜]로 ‘학’의 종성 ‘ㄱ’과 ‘교’의 초성 ‘ㄱ’은 같은 ‘ㄱ’임에도 각각 [k]와 [g]로 소리가 다르다. 이처럼 각기 다른 음성들은 여러 방식으로 조합돼 단어와 문장의 형태를 갖춘다. 때문에 음성을 자연스럽게 구현해 내기 위해서는 소리의 운율과 경계를 예측해 음소를 부드럽게 이어 붙이는 연속 합성 기술, 음성의 특성을 추출하는 통계 기반 파라미터 합성기술 등이 추가로 필요하다.

딥러닝 기술의 발전으로 음성 합성 기술 또한 비약적인 성장을 이루었다. 딥러닝 모델을 통해 음성을 스스로 학습하고 보다 자연스러운 합성음을 출력해 내게 된 것이다. 딥러닝 모델은 화자의 음성에 드러나는 강세와 높낮이, 음색 등의 특성뿐만 아니라 호흡과 공기 중 소리의 공명과 같은 세부적인 부분까지 스스로 학습해 예측한다. 또한 입력부터 출력까지 하나의 *모듈로 구성되는 End-to-End 시스템은 입력 텍스트와 음성 데이터만으로도 모델을 학습할 수 있다. End-to-End 시스템을 활용한 딥보이스 기술은 입력 문장을 통째로 학습해 자연스러운 합성음을 출력한다. 개발자가 텍스트를 읽는 속도와 발음, 억양 등을 지시할 필요가 없어진 것이다. 이를 통해 음성 합성 비용이 감소했으며 음성 구현을 넘어 감성과 개성까지도 표현할 수 있게 됐다. 따라서 딥보이스는 앞으로 로봇, 교육, 엔터테인먼트, 기업의 마케팅, 방송 등 다양한 분야에서 활용될 것으로 기대된다.

잃어버린 목소리를 되찾아 주는 딥보이스
딥보이스는 다양한 분야에서 사회적 가치를 창출해 내기도 한다. 지난해 네이버는 고인이 된 부모님의 목소리로 글을 읽어주는 ‘엄마의 목소리를 부탁해’ 캠페인을 진행해 뜨거운 호응을 얻었다. 통신기업 KT는 딥보이스로 가수 겸 라디오 DJ였던 고(故) 신해철의 목소리를 되살려 라디오 콘텐츠를 제작하기도 했다. 뿐만 아니라 약화된 근육으로 목소리를 잃을 위험이 있는 루게릭병 환자들은 딥보이스를 통해 자신의 목소리를 구현할 수 있다. 이처럼 딥보이스는 고인이나 말을 할 수 없는 환자의 잃어버린 목소리를 되찾아 주기도 한다.

그러나 딥보이스가 목소리를 흉내 낼 수 있다는 점을 악용해 발생하는 문제도 있다. 실제로 지난 2021년 아랍에미리트의 한 은행에서 딥보이스로 흉내 낸 대기업 임원의 전화를 받고 420억 원에 달하는 금액을 송금한 딥보이스피싱 피해가 발생했다. 정 교수는 “내가 잘 아는 사람의 목소리가 보이스피싱에 활용된다면 신뢰감 확보가 훨씬 쉬워져 피해 사례가 더 커질 수 있다”며 “해당 사례는 딥보이스의 악용 위험성을 보여준다.”고 밝혔다.

딥보이스로 다채로운 오디오 콘텐츠를 즐기려면
딥보이스에 대한 기대와 우려의 목소리가 함께 들려오는 만큼 딥보이스 범죄 예방에 신경을 써야 한다. 정 교수는 “국가와 기업은 점점 정교해지는 딥보이스 악용 범죄를 예방하기 위한 연구를 진행 중이다”고 전했다. 딥보이스 사용 여부는 합성된 음성의 주파수나 코드의 차이를 통해 밝혀낼 수 있다. 이에 국가와 기업은 다양한 형태로 만들어지는 딥보이스를 판별할 수 있는 기술을 개발할 예정이다. 검찰청은 AI 딥보이스 악용 신종범죄에 대한 대응책으로 가짜 음성 탐지 기술 개발에 나섰다. 또한 AI 딥보이스 활용 서비스를 제공하는 스타트업 ‘리젬블 AI'는 딥보이스를 가려내는 음성 워터마크 기술을 고안해 냈다. 딥보이스의 발전으로 우리는 다채로운 오디오 콘텐츠를 즐길 수 있게 됐다. 안전하고 편리한 콘텐츠 활용을 위해서는 딥보이스의 발전과 더불어 범죄 예방을 위한 기술과 정책이 함께 마련돼야 할 것이다.

◇모듈=컴퓨터 프로그램을 기능별로 분할한 논리적인 일부분.