MS, 음성·이미지 특화 AI 3종 공개…'받아쓰기 성능' 구글·오픈AI 제쳐

이지원 기자입력 2026-04-03 15:17

기사공유
폰트크기

"내년엔 최첨단 모델로 승부"

마이크로소프트(MS)가 음성 전사 및 생성, 이미지 생성에 특화된 인공지능(AI) 모델 3종을 동시에 출시하며 ‘AI 주권’ 확보에 속도를 내고 있다.

사티아 나델라 MS 최고경영자(CEO)는 2일(현지시간) 자신의 링크트인을 통해 "모든 개발자가 활용할 수 있는 확장된 MAI(MS AI) 모델 라인업을 갖추게 됐다"고 밝히며, 음성 전사 모델 'MAI-트랜스크라이브-1', 음성 생성 모델 'MAI-보이스-1', 이미지 생성 모델 'MAI-이미지-2'를 전격 공개했다.

이번에 공개된 모델 중 가장 눈에 띄는 것은 음성 전사 모델인 'MAI-트랜스크라이브-1'이다. 한국어를 포함해 총 25개 언어를 지원하는 이 모델은 업계 표준 벤치마크인 '플뢰르(FLEURS)'에서 오픈AI와 구글의 모델을 제치고 가장 낮은 오류율을 기록했다. MS 측은 다국어 회의는 물론 시끄러운 카페나 콘서트장 등 소음이 심한 환경에서도 독보적인 인식률을 보인다고 강조했다.

관련기사

MS, 일본에 100억달러 투자…데이터센터·AI 인프라 확충

함께 공개된 'MAI-보이스-1'은 단 몇 초의 샘플 데이터만으로 맞춤형 음성을 생성할 수 있는 능력을 갖췄다. 특히 60초 분량의 오디오를 단 1초 만에 생성하는 압도적인 처리 속도를 자랑한다. 이미지 생성 모델인 'MAI-이미지-2'는 최상위권의 성능을 유지하면서도 낮은 비용으로 이미지를 생성할 수 있는 ‘가성비’를 앞세웠다.

MS는 현재 딥마인드 공동창업자 출신인 무스타파 술레이만 MAI 부문 CEO를 필두로 인간을 뛰어넘는 ‘초지능(Superintelligence)’ 개발에 사활을 걸고 있다. 술레이만 CEO는 이날 블룸버그 통신과의 인터뷰에서 "우리는 반드시 절대적인 최첨단 기술을 선보여야 한다"며 "늦어도 2027년까지는 세계 최고 수준의 범용 기반 모델(파운데이션 모델)을 완성하는 것이 목표"라고 공언했다. 그는 이를 위해 지난해 엔비디아의 최신 AI 칩 등 컴퓨팅 자원을 대거 확충했으며, 향후 12~18개월 내에 비약적인 발전을 이룰 것이라고 덧붙였다.

그간 경쟁사들에 비해 MS의 기반 모델 개발이 다소 늦어졌던 배경에는 오픈AI와의 초기 계약 관계가 있다. 과거 MS는 오픈AI에 투자하며 GPT 모델 사용권을 얻는 대신, 직접적인 범용 기반 모델 개발에는 나서지 않기로 약속했기 때문이다. 하지만 지난해 오픈AI의 기업 구조 개편 과정에서 해당 계약을 갱신하며 이러한 제약이 사라졌고, 이후에서야 MS는 독자적인 AI 모델 개발에 전념할 수 있게 됐다.

나델라 CEO 역시 최근 사내 개발자들과의 만남에서 향후 3~5년 내에 최첨단 AI 기술 자립을 이루는 것이 무엇보다 중요하다는 점을 거듭 강조한 것으로 알려졌다.