
카카오는 1일 공식 테크블로그를 통해 통합 멀티모달 언어모델 ‘카나나(Kanana)-o’와 오디오 언어모델 ‘카나나-a’의 성능 및 개발 후기를 공개했다.
‘카나나-o’는 국내 최초로 텍스트, 음성, 이미지를 동시에 이해하고 처리할 수 있는 통합 멀티모달 언어모델이다. 사용자가 텍스트, 음성, 이미지 중 어떤 조합으로 질문을 입력하더라도 이를 처리하며, 상황에 맞는 텍스트나 자연스러운 음성으로 응답하도록 설계됐다.
카카오는 ‘모델 병합(Model Merging)’ 기술을 활용해 이미지 처리에 특화된 ‘카나나-v’와 오디오 이해 및 생성에 특화된 ‘카나나-a’를 통합, 단기간 내 ‘카나나-o’를 효율적으로 개발했다. 통합 후에는 이미지, 오디오, 텍스트 데이터를 동시에 학습하는 ‘병합 학습’을 통해 시각과 청각 정보를 통합적으로 이해하고 텍스트와 연결하도록 훈련했다. 이를 통해 기존 거대언어모델(LLM)에 이미지 이해, 음성 인식·합성, 감정 분석 등 고도화된 오디오 기능을 확장한 멀티모달 모델을 구현했다.
특히 대규모 한국어 데이터셋을 활용해 한국어의 발화 구조, 억양, 어미 변화 등을 정밀히 반영했다. 제주도, 경상도 등 지역 방언을 인식하고 표준어로 변환해 자연스러운 음성을 생성할 수 있다. 카카오는 음성 성능 고도화를 위해 독자적인 한국어 음성 토크나이저(오디오 신호를 세부 단위로 분해하는 도구) 개발도 진행 중이다.
또한 스트리밍 방식의 음성합성 기술을 적용해 긴 대기 시간 없이 실시간 응답을 제공한다. 예를 들어, 사용자가 이미지와 함께 “이 그림에 어울리는 동화를 만들어 줘”라고 요청하면, ‘카나나-o’는 음성과 이미지를 분석해 사용자의 억양과 감정을 반영한 창의적인 이야기를 즉시 생성해 들려준다.
‘카나나-o’는 한국어 및 영어 벤치마크에서 글로벌 최고 모델들과 유사한 성능을 기록했으며, 특히 한국어 벤치마크에서는 우수한 성과를 보였다고 카카오 측은 밝혔다.
카카오는 앞으로 ‘카나나-o’를 통해 △다중 턴(Multi-turn) 대화 처리 △Full-duplex(양방향 동시 송수신) 대응 능력 강화 △부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구를 지속할 계획이다.
김병학 카카오 카나나 성과리더는 “카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화하고 있다”며 “독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획”이라고 말했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지