AI업계 '텍스트' 넘어 '보이스' 경쟁으로...韓은 아직 응용수준

사진미스트랄AI
[사진=미스트랄AI]


글로벌 인공지능(AI) 업계가 텍스트 중심의 거대 언어 모델(LLM)을 넘어 음성 인식 및 합성 기술 개발에 속도를 내고 있다. 음성 AI 모델은 상업적 활용도가 높다는 점에서 글로벌 기업들의 경쟁이 치열해지고 있다. 국내 AI 업계 역시 한국어 기반 데이터셋의 한계로 응용 수준에 머물고 있지만, 최근 국산 LLM의 성능 향상과 함께 음성 AI 상용화에 대한 기대감이 커지고 있다.
 
17일 IT업계에 따르면 프랑스의 AI 기업 미스트랄 AI는 지난 15일 음성 인식 AI 모델 ‘복스트랄(Voxtral)’을 공개했다.
 
복스트랄은 소스코드 대신 모델 가중치와 API 접근 방식으로 오픈소스 라이선스로 배포됐다. 최대 40분 분량의 음성을 이해할 수 있는 롱폼 맥락 지원이 특징이다. 공식 벤치마크 결과, 복스트랄은 오픈AI의 GPT-4o, 구글의 제미나이 1.5 프로와 유사하거나 일부 항목에서 더 높은 점수를 기록하며 성능을 입증했다.
 
글로벌 AI 기업들의 음성 AI 모델 출시는 올해 상반기 집중됐다. 지난 3월 오픈AI는 멀티모달 AI 모델 GPT-4o를 공개하며 음성 대화 기능을 강화했다. 같은 시기 구글은 제미나이 1.5 프로를 기반으로 한 음성 기능을 선보였다. 이 외에도 딥그램의 Nova-2, 일레븐랩스의 Sonix, 흄 AI 등 메이저 음성 AI 모델들이 잇따라 출시되며 음성 기술의 상용화 가능성을 보여줬다.
 
이러한 모델들은 텍스트뿐 아니라 음성 입력을 처리하고, 감정 분석 및 자연스러운 음성 합성까지 가능해 다양한 산업에서 활용도가 높다. 음성 AI는 콜센터 자동화, 의료 기록 작성, 교육 콘텐츠 생성 등에서 효율성을 극대화하며 비즈니스 성과를 창출할 것으로 전망된다.
 
국내 AI 업계는 음성 인식 기술에서 아직 글로벌 상용 모델에 비해 뒤처져 있다는 평가가 나온다. 비토, 다글로 등 국내 기업은 음성 인식 서비스를 제공하지만, 대부분 해외 LLM이나 API에 의존하거나 자체 음성 인식 엔진 개발이 초기 단계에 머물고 있다. 이는 한국어 기반 LLM과 음성 인식 데이터셋의 한계 때문으로 분석된다. 영어 중심의 글로벌 데이터셋에 비해 한국어 데이터는 양과 다양성에서 부족하며, 이는 모델의 성능 신뢰도 저하로 이어진다.
 
NIA(한국지능정보사회진흥원) 등에 따르면 국내에서 제공되는 한국어 음성 데이터셋은 대화 상황, 감정 라벨링, 사용자 정보 등을 포함하지만 글로벌 모델이 활용하는 방대한 데이터 규모와 비교하면 제한적이다. 전문가들은 한국어 음성 데이터의 품질과 양을 확충해야 글로벌 경쟁력을 확보할 수 있다고 지적한다.
 
최근 국내 AI 기업들은 한국어 특화 LLM의 성능을 끌어올리며 음성 AI 상용화에 대한 기대감을 높이고 있다. 업스테이지는 ‘솔라 프로 2’를 공개하며 한국어 추론 능력에서 GPT-4o, 딥시크 R1, 미스트랄 스몰 3.2 등 글로벌 모델과 필적하는 성능을 입증했다. 특히 한국어 이해 능력 평가(KoBEST)에서 높은 점수를 기록하며 경쟁력을 과시했다.
 
솔트룩스는 ‘루시아 3’ 출시를 준비 중이며, LG AI연구원은 ‘엑사원 4.0’을 이달 중 공개할 예정이다. 엑사원 4.0은 지난해 오픈소스로 공개된 엑사원 3.5에 추론 AI ‘엑사원 딥’을 통합해 성능을 강화한 모델로, 한국어 이해 및 추론 능력 벤치마크(KoBEST)에서 GPT 등 주요 모델과 비교해 높은 점수를 보여줬다.

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
댓글0
0 / 300

댓글을 삭제 하시겠습니까?

닫기

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기