EMNLP는 전 세계 연구자들이 새로운 AI·언어 기술을 공개하는 대표적인 국제 학회로 꼽힌다.
이스트소프트 연구진은 ‘대규모 언어모델(LLM)’을 활용해 여러 나라 말로 자동 더빙을 해주는 새 기술을 선보였다.
논문 제목은 ‘대규모 언어모델을 활용한 종단 간 다국어 자동 더빙 프레임워크’다.
이번에 제안된 시스템은 ‘음성을 글자로 바꾸는 단계(STT)’, ‘글을 다른 언어로 번역하는 단계(NMT)’, ‘번역된 글을 다시 음성으로 읽는 단계(TTS)’로 구성된다. 이 가운데 번역 단계에 두 가지 장치를 더한 것이 특징이다.
‘발화 길이 조정 번역’ 기술은 원본 화자가 말하는 시간을 기준으로, 번역 후 목소리가 어느 정도 길이가 돼야 할지 AI가 예측해 번역 분량을 조절한다. 이를 통해 번역이 불필요하게 길어지지 않도록 막고, 음성이 영상보다 먼저 끝나거나 지나치게 늦게 끝나는 현상을 줄인다.
‘발화 정지 정보 통합’은 사람 말 속에 포함된 숨 고르기나 짧은 멈춤 같은 정지 구간까지 함께 고려해, 더빙 음성에도 비슷한 리듬과 쉼을 반영한다.
이 두 기술은 모두 LLM을 기반으로 한다. 단순히 문장을 다른 언어로 옮기는 수준을 넘어 “이 문장은 어느 정도 길이여야 자연스럽고, 어디에서 쉬어야 할지”까지 함께 판단하는 방식이다.
이스트소프트는 실험 결과 이번 방식이 자사를 포함한 기존 상용 AI 더빙 시스템과 비교해 영상과 음성이 맞는 정도(싱크 정확도)는 24%, 여러 언어로 들을 때 만족도는 12% 각각 높아졌다고 설명했다.
회사 측은 “원본 영상의 말하는 속도와 리듬을 최대한 유지하면서도 다양한 언어로 자연스럽게 더빙된 영상을 만드는 데 한 걸음 더 다가섰다”고 밝혔다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지



![[르포] 중력 6배에 짓눌려 기절 직전…전투기 조종사 비행환경 적응훈련(영상)](https://image.ajunews.com/content/image/2024/02/29/20240229181518601151_258_161.jpg)



