[인터뷰] 챗GPT 입힐 내 목소리 '뚝딱'…음성복제 AI 문턱 낮추는 카카오

기자정보, 기사등록일: 최은정 기자; 입력 2023-02-06 00:05

기사공유
글자크기 설정

정성희 카카오엔터프라이즈 AI랩&서비스보이스인터페이스팀 연구원
활용처 무궁무진한 '보이스클로닝' R&D 한창
현대차 내비게이션 TTS 처럼 사업화 기대 커
"TTS 목소리·언어 다양화, 모델 경량화 추진"
적은 데이터로 자연스러운 '읽기 음성' 구현

정성희 카카오엔터프라이즈 AI랩&서비스보이스인터페이스팀 연구원 [사진=유대길 기자 dbeorlf123@ajunews.com]

누구나 단 한 문장을 소리 내 읽는 것만으로 본인 목소리를 가진 가상인간을 만들 수 있게 될 전망이다. 음성합성(TTS) 고도화 기술인 '보이스클로닝(voice cloning·음성 복제)'을 통해서다. 텍스트 기반 대화형 인공지능(AI) 챗봇 '챗GPT'에 보이스클로닝 기술을 결합하면 챗GPT는 '글 쓰는 AI'를 넘어 자신의 방대한 지식을 유창한 말솜씨로 들려 주는 '달변가'로 변신할 수 있다.

카카오엔터프라이즈는 보이스클로닝 분야 경쟁력을 높이는 연구개발(R&D)에 한창이다. 현재는 R&D 단계로 관련 기술 논문을 작성하거나 특허권을 출원하는 데 집중하고 있지만, 향후 기술 적용 분야는 무궁무진하다. 카카오엔터프라이즈의 기존 TTS 기술은 카카오 AI 스피커와 현대차 내비게이션에서 이미 활용된 만큼, 보이스클로닝 기술의 사업화 가능성에 대한 기대도 크다.

정성희 연구원 [사진=유대길 기자 dbeorlf123@ajunews.com]

본지는 TTS 엔진 개발과 보이스클로닝 연구 등을 맡고 있는 정성희 카카오엔터프라이즈 AI랩&서비스보이스인터페이스팀 연구원을 지난달 31일 만나 인터뷰했다.

다음은 정 연구원과 일문일답한 내용.

-올해 어떤 방향성을 갖고 TTS 기술을 연구할 계획인가.

관련기사

"(TTS 엔진을 활용해) 현재 API 형태로 32종 화자(목소리)를 제공하고 있다. 기업·기관에서 전화 상담원 목소리 등으로 쓸 수 있도록 정보 전달에 최적화돼 있다. 앞으로 지원 목소리를 계속 추가할 예정이다. 서비스 속도를 높이고 비용 부담을 줄이기 위한 목표로 TTS 모델 경량화도 지속 진행 중이다.

당사는 TTS 데모 웹사이트를 모든 이용자 대상으로 공개하고 있다. 이 사이트에서 누구나 TTS 기술을 경험해 볼 수 있도록 지원한다. 현재로서는 당사가 제공하는 목소리로 국문 텍스트 음성 변환이 가능하지만 향후 영문도 지원하기 위해 기술을 개발하고 있다."

-TTS가 적용될 수 있는 신규 분야가 있다면.

"사람과 대화 가능한 소비자(B2C)용 TTS 서비스다. 현재로선 TTS 출력 목소리가 입력된 문구 등 정해진 텍스트만 읽는 수준이다. 향후 AI 대화 모델이 더 발전하면 TTS도 대화가 가능한 형태로 발전할 수 있다. 짧은 문장이더라도 고인의 생전에 녹음한 목소리가 있으면, 이용자는 가상으로 고인과 대화가 가능하다는 거다. 엔터테인먼트 분야에서는 팬덤을 대상으로 연예인과 대화 서비스 등을 손쉽게 제공할 수 있게 된다. 이렇게 되면 TTS 기술 문턱이 낮아져 일반 이용자들도 기술을 직접 경험해볼 수 있는 기회가 많아질 것으로 기대한다."

-챗GPT와 TTS의 연계 가능성도 있나.

"기술적으로 충분히 가능하다. 챗GPT는 텍스트 내용을 화면에 그대로 출력해주는 것이 결과물(아웃풋)인데, 여기에 TTS를 결합하면 결과물이 음성으로 나온다. 음성인식(STT) 기술까지 더해지면 시각장애인도 챗GPT를 사용할 수 있게 되지 않을까."

-AI 컨택센터에 카카오 TTS가 쓰이고 있다고.

"그간 진행한 TTS·보이스클로닝 연구 내용을 기반으로 AI 고객센터 솔루션 '카카오 i 커넥트센터'에 신규 기능을 연내 추가할 예정이다. 국내 한 금융사는 금융 약관을 낭독하고 고객의 동의를 받는 등 업무에 이 솔루션을 도입하기도 했다."

-작년 개발자 행사 이프카카오에서 보이스클로닝 모델 '커스텀 음성합성기'를 선보였다. 개발 기간은 어느 정도이고 얼만큼의 데이터가 해당 모델 학습에 쓰였나.

"개발 기간은 약 2년 정도다. 모델 학습에는 한국지능정보사회진흥원(NIA)이 수집한 공공 데이터를 활용했다. 화자 2000명의 목소리가 포함돼 있다. 한 명당 2400·4800·1만2000개 단어·문장을 발화하는 형태였다."

-커스텀 음성합성기로 출력한 목소리가 문장 속 감정을 해석해 표현하는 것도 가능한가.

"감정 표현 관련 영역은 다른 팀원이 별도로 연구를 진행하고 있다. 기쁨·슬픔·화남 감정(스타일)을 변환해 목소리로 출력하는 등 식이다. 제가 개발 중인 보이스클로닝 모델은 감정 표현보단 평서문에 집중하고 있다."

-음성합성기로 출력된 AI 음성을 평가하는 별도 기준이 있나.

"통상 사람이 직접 평가한다. 출력 음성의 음질, 화자의 인토네이션(억양), 자연스러움 등 평가 카테고리 중심으로 이뤄진 음성품질점수(MOS) 테스트다. 최근에 나온 음성합성기들은 MOS 테스트에서 5점 만점에 4점 이상 성과를 보인다. 당사 모델들의 경우 세계 최고 수준(스테이트오브디아트·SOTA)의 점수를 기록하고 있다."

-올해 TTS·보이스클로닝 관련 새 논문을 학회에 발표할 계획은.

"논문 제출과 특허 출원을 위해 준비 중이다. 논문의 경우 머신러닝 분야인 '메타러닝' 관련 내용을 발표하려 한다. 메타러닝은 데이터가 거의 없는 상태에서 고품질 AI 모델을 만들 수 있는 학습 방법이다. 메타러닝을 이용해 (TTS 출력 음성의) 발음 정확도를 높이는 등 방법을 담은 논문을 연내 학회에 제출하겠다."

-TTS 기술이 현대 사회에 주는 의미는 무엇인가.

"누군가와 대화할 기회가 점점 줄어드는 사회다. 심지어 AI 스피커가 대화 상대로 부상했지 않나. 최근에는 1인 가구도 많아지는데, TTS 기술이 외로운 이들의 말벗이 돼 줄 수 있다. 그래서 꼭 필요하고 중요한 기술이지 않을까 한다."

◆ 정성희 연구원은

2021년 3월 카카오엔터프라이즈에 입사한 정 연구원은 이화여대 전자공학과를 졸업하고 카이스트 전기·전자공학부 석사를 마쳤다.