[인터뷰] 카카오엔터프라이즈의 '실전에 강한' 음성인식 AI 만들기

음성 AI 국제학회 채택논문 저자 이지혜 연구원 인터뷰
음성인식 서비스화 업무 중 도메인 불일치 해법 제안
"짧은 발화만 학습한 모델로 1시간 분량 음성도 처리"
"스트리밍 환경 오디오를 처리하는 방법 연구할 계획"

이지혜 카카오엔터프라이즈 연구원이 음성 AI 국제학회 '인터스피치 2022' 현장에서 본지와 인터뷰하고 있다. [사진=카카오엔터프라이즈]

카카오엔터프라이즈가 '실용적인 인공지능(AI)'에 집중해 연구 성과를 제품·서비스화하는 데 힘을 쏟는 가운데 최근 짤막한 음성 데이터로 학습한 음성인식(STT) AI 모델이 긴 음성도 더 정확하게 인식하도록 성능을 개선할 수 있는 방법을 선보였다. 음성 AI 분야 국제학회 '인터스피치' 현장에서 공동1저자로 해당 연구 논문을 발표한 이지혜 카카오엔터프라이즈 연구원은 본지와 인터뷰하면서 이 방법으로 음성비서 '헤이카카오'와 같은 AI 서비스의 인식 성능 개선, 실시간 STT 구현을 도울 수 있을 것이라고 내다봤다.

다음은 이지혜 연구원과 일문일답한 내용.

-STT 분야 연구를 언제부터 시작했나.

"석사과정 밟으면서 한양대 장준혁 교수님 연구실에 들어갔는데 그때 처음 접했다. 연구실에서 하이브리드 자동 음성 인식(ASR·Automatic Speech Recognition) 하위 영역인 음향모델(AM·Acoustic Model)을 담당했고 이전 직장을 다니는 동안 ASR 연구를 계속했다. 지금은 AM, 언어모델(LM·Language Model) 등을 나누지 않고 STT의 전체 기능을 한꺼번에 커버하는 '종단 간(end-to-end) STT'를 다룬다."

관련기사

-논문 내용을 소개해 달라.

"AI를 만들 때 학습한 환경과 다른 환경에서도 높은 성능을 얻는 것이 중요하다. 이 논문은 AI가 (학습하지 않은) 긴 음성을 인식할 때 나타나는 '탈락 오류(deletion error)'를 해결하는 방법을 제안하고 이 방법으로 인식된 문자 단위 오류 비율을 27.6% 줄이는 효과를 봤다는 내용이다. 카카오 헤이카카오 앱 파일업로드 기능에 이 방법이 적용됐고 다른 AI 서비스 음성인식률을 높이는 데도 유용할 것으로 기대된다."

-이 주제를 선택한 이유가 있을까.

"논문을 쓰기 위해 연구 주제를 정하고 시작하진 않았다. 종단간 STT 기술을 서비스화하는 것이 업무인데 (도중에) 문제가 생겨 해결할 방법을 연구하다 보니 그 과정과 결과를 쓰게 된 것이다. 논문에선 AI 모델 개발 과정에 학습 데이터와 특징이 일치하지 않는 테스트 데이터를 쓰는 환경에서 나타나는 문제를 뜻하는 '도메인 불일치 문제(domain mismatch problem)' 해소를 이 연구의 주된 동기로 밝혔다."

-학습·테스트 데이터는 원래 다른 것 아닌가.

"음성 AI 모델 개발 환경에선 공개된 데이터베이스(DB)를 활용하는데 완전히 동일하진 않더라도 학습 데이터와 테스트 데이터의 특성이 유사할 때가 많다. 보통 단문 표현, 짧은 발화(發話)를 녹음한 데이터로 학습하고 테스트한다. 그렇게 만든 모델로 지금처럼 장시간 인터뷰나 회의를 진행하면서 녹음한 데이터로 검증할 때 당초 기대한 성능이 안 나올 수 있다. 우리는 짧은 발화로만 학습한 모델이 상대적으로 긴 회의나 방송, 자유 발화를 녹음한 데이터를 다룰 수 있게 했다. 길게는 1시간 정도 음성을 커버할 수 있다."

-논문에 STT 시스템에 쓰인 '콘포머'에 '희소 자기 주의 계층(sparse self attention layer)'을 도입하는 방법을 제안했는데 어떤 의미인지.

"콘포머는 길이가 긴 음성이 있을 때 '국지적(local)'이라고 표현하는 짧은 구간 내 맥락과 그와 별개인 '전반적(global)'인 맥락의 특징을 잘 포착하는 모델 구조로 요즘 STT 모델에 많이 쓰인다. 이 구조를 사용하면서 도입한 모델의 특징을 분석하면서 (도메인 불일치 문제로 긴 음성 구간 내용 자체에) 집중해야 하는데 집중하지 못하는 모습을 발견했다. (여러 주의 계층으로 구성된) 기존 모델에서 필요한 부분을 남기고 나머지를 제외하면 성능이 좋아질 것으로 추론했고 실제로 시도해 보니 효과가 있어 논문 형태로 정리하게 됐다."

-긴 발화를 다루는 예측 네트워크를 일반화(generalization)하기 위한 상태(state) 초기화 방법을 함께 제안했는데 어떤 의미인지.

"사람이 말할 때 중간에 쉬는 구간이 길면 문맥이나 문장이 바뀐다고 생각할 수 있지 않나. 침묵이 길어질 때 (STT 시스템도 앞서 입력된 발화로 축적된 맥락 내역 정보를) 초기화하고 새로운 정보 입력이 시작되도록 만드는 것으로 보면 된다. 다만 이 방법은 (희소 자기 주의 계층 도입 방법에 비해) 부수적인 것이고 이 연구에서 중요하게 다루지 않았다. 이 방법만 단독으로 사용해 모델 성능을 높이기는 어렵다."

-다른 해법 대비 논문에 제안된 방법의 이점은.

"기존 도메인 불일치 문제 해법은 모델 학습 단계에 적용해 개선 효과를 얻으려는 경우가 많았다. 그런데 학습 환경에서 무언가를 개선해 효과를 얻으려면 그 결과물인 모델을 변경해야 한다. 우리는 이미 학습한 모델 자체는 그대로 두고 이후 테스트 단계에서 모델이 참조하는 '주의 점수(attention score)'를 조절하는 것만으로 활용할 수 있는 방법을 제안했다. 모델을 다시 만들 필요가 없다는 점에서 더 편리하다."

-이 주제와 관련해 구상 중인 후속 연구 주제나 목표가 있다면.

"이 논문으로 제안하는 방법은 음성 데이터를 파일 형태로 입력받아 한 번에 인식하는 일괄 처리 인식 환경에서 다룬 것이다. 앞으로 (재생 시점에 맞춰 일부 데이터만 전송되는) 스트리밍 오디오 데이터의 음성을 인식해 처리하는 환경도 연구해서 개발해 볼 계획이다. 종단 간 STT 기술을 계속 개발하는 일을 맡고 있기 때문에 이 주제와 직접적으로 관련되지 않은 영역에서도 발견된 문제를 해결하기 위해 또 논문을 쓸 수 있다."