"사람처럼 말·노래하는 AI"…韓 테크 기업들, 국제학회서 음성AI 기술 뽐내

[사진=게티이미지뱅크]

국내 정보기술(IT) 기업들이 대규모 음성 인공지능(AI) 분야 국제 학회에서 사람의 음성 언어로 더 자연스럽게 대화하고 노래할 수 있는 음성합성(TTS)·음성인식(STT) 고도화 방법을 제안해 주목받고 있다. IT 기업들의 연구 성과가 신흥 AI 응용 분야로 떠오른 '가상 인플루언서'나 '디지털 개인 비서' 보편화와 메타버스 공간에서 인간과 소통하고 교감할 만큼 고도화한 '가상인간' 출현을 앞당길 전망이다.

19일 업계에 따르면 이날부터 오는 22일까지 인천 송도컨벤시아에서 열리는 제23회 인터스피치(INTERSPEECH)에서 카카오, 엔씨소프트, 네이버 등 국내 IT 기업 소속 AI 연구자들이 주요 연구 논문을 발표한다. 각 사 관계자들은 학회 행사장 안에 전시공간을 마련해 관련 AI 기술을 시연하고 음성 인식·합성 분야에서 사람들과 소통하고 교감하기 위한 기술 투자 성과를 공개한다.

카카오엔터프라이즈는 논문 네 편을 공개한다.

임단·정성희·김의성 연구원은 구두 발표 논문(JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech)으로 실제 사람과 구별하기 어려운 수준의 자연스러운 고품질 음성 개발 방법론을 제안한다. 텍스트에서 멜 스펙트로그램(주파수 표현) 등으로 바꾸는 '음향 특징 발생기' 모델 학습과 이것으로 실제 음파를 만들어내는 '뉴럴 보코더' 모델 학습을 한 번에 할 수 있게 한 것으로 '카카오 i 커넥트 센터', '헤이카카오' 등 TTS 서비스에 적용된 방법이다.

관련기사

이지혜 연구원이 공동1저자로 참여한 논문은 STT 시스템이 긴 음성을 인식할 때 일어나는 '탈락 오류(deletion error)'를 개선하고 STT 모델이 학습하지 않은 입력 데이터 인식 성능을 기존 대비 27.6% 향상시킨 방법을 제안했다.

이주성 연구원이 집필한 논문은 인간 발화에서 감정을 한 가지만 인식하는 '원-핫 인코딩' 방식 대신 다양한 감정 분포를 인식하는 '그레이스케일 레이블'을 제안했다. 이는 카카오엔터프라이즈의 기업용 발화 의미 분석 AI 서비스에 적용된 방법론이다.

김의성·전재진·서혜지·김훈 연구원이 함께 발표한 논문은 비원어민 학습자 영어 발음을 원어민과 얼마나 가까운지 평가하는 AI 구현 방법을 다뤘다. 이 방법은 카카오엔터프라이즈가 영어교육기업 잉글리시헌트와 공동 개발한 학습 앱 주요 기능 개발에 활용됐다.

최동진 카카오엔터프라이즈 최고인공지능책임자(CAIO) 겸 부사장은 "카카오엔터프라이즈는 어렵고 접근하기 어려운 기술이 아닌 사용자가 직접 활용하고 체감할 수 있는 실용적인 AI에 집중하고 있다"며 "사용자에게 더 나은 삶을 선사할 수 있는 기술을 제공하기 위해 역량 있는 크루들의 연구를 적극 지원하고 AI 챗봇, AI 컨택센터 등 서비스 고도화에 많은 노력과 투자를 이어 나갈 계획"이라고 말했다.

카카오엔터프라이즈는 2019년 카카오에서 분사한 이래로 3년 연속 인터스피치에서 논문을 발표해 올해까지 논문 8편을 발표했다. 2022년도 인터스피치 행사장에 마련된 전시공간 전경. [사진=카카오엔터프라이즈]

엔씨소프트에선 AI 센터 산하 '스피치 AI 랩(Speech AI Lab)' 연구자들이 논문 세 편을 공개한다.

김태우·강민수·이경훈 연구원 논문은 노랫소리의 음색(timbre)과 음높이(pitch) 표현을 분리해 더 자연스러운 '가창 음성 합성(SVS)' AI 모델을 만들기 위한 방법을 제안한다. 성능을 높인 합성 모델을 개발하는 과정에 단일 모델로 여러 가수의 가창 음성을 생성할 수 있게 된 성과도 소개한다.

배한빈·주영선 연구원 논문은 음소 단위 음높이 조절에 특화된 TTS 모델 '패스트피치'로 원본 음성 추가 녹음 없이 기존 학습용 데이터만으로 대상 화자 음성을 합성하는 성능과 발화 품질을 높이기 위해 고안한 방법론과 알고리즘을 소개한다.

배재성·양진혁·박태준·주영선 연구원 논문은 동일한 텍스트를 다양한 운율, 호흡으로 읽는 TTS 모델을 제안해 사람에게 더 자연스럽게 들리는 AI 음성 구현 가능성을 열었다.

김희만 엔씨소프트 스피치 AI랩 실장은 "엔씨의 음성 AI 기술은 상용화 다음 단계를 바라보고 있다"며 "차별화한 기술을 연구해 결과를 외부에 꾸준히 공유하겠다"고 말했다.

엔씨소프트는 부족한 점을 보완해 음악 등 다양한 분야와 융합해 경쟁력이 높은 음성 AI 기술을 만들어하겠다고 밝혔다. 목소리, 어투로 상황을 파악할 수 있는 감정 표현, 특색 있는 목소리와 다양한 언어, 이 요소를 제어하는 음성 AI 기술을 구현해 궁극적으로 사람과 감정적으로 교감하고 소통하는 '디지털 휴먼'을 선보이기 위해 도전하겠다고 강조했다.

오는 20일부터 네이버 사내독립기업(CIC)인 클로바 소속 연구원들도 음성 합성 기술 연구, 목소리에 따라 말하는 사람이 누구인지를 구별해 인식하는 화자 인식 연구, 목소리의 주인공이 맞는지를 판별하는 화자 인증 기술 연구 등 주요 성과를 발표한다.

임민철 기자imc@ajunews.com

기자의 다른기사