"한국어 LLM 보다 정확하게 평가한다"…네이버, 한국판 MMLU 공개

기자정보, 기사등록일
윤선훈 기자
입력 2024-02-21 17:15
    도구모음
  • AI 기사요약
  • * AI기술로 자동 요약된 내용입니다. 전체 맥락과 내용을 이해하기 위해서는 기사 본문 전체를 보시길 권장합니다

    네이버가 한국어 거대언어모델(LLM)의 성능을 보다 정확하게 평가할 수 있는 맞춤형 AI 테스트 지표를 공개했다.

    한편 이날 하정우 네이버 퓨처 AI 센터장은 자신의 페이스북을 통해 K-MMLU로 평가한 하이퍼클로바X의 평가 결과를 공개했다.

    이에 따르면, 하이퍼클로바X는 K-MMLU 평가 항목 중 '한국 특화 지식(Korea-Specific)'에서 제미나이 프로(42.94), GPT-4(54.89)보다 더 높은 55.21점을 기록했다.

  • 글자크기 설정
  • 네이버클라우드 하이퍼클로바X팀과 오픈소스 언어모델 연구팀 '해례' 간 협업

사진네이버 논문 갈무리
K-MMLU를 통해 주요 거대언어모델의 한국어 처리 성능 지표를 공개한 벤치마크 결과를 정리한 표. [사진=네이버클라우드 게재 논문 갈무리]
네이버가 한국어 거대언어모델(LLM)의 성능을 보다 정확하게 평가할 수 있는 맞춤형 AI 테스트 지표를 공개했다.

21일 업계에 따르면, 네이버클라우드 하이퍼클로바X팀은 지난 18일 논문 사전공개 사이트 '아카이브(arXiv)'와 AI 오픈소스 커뮤니티 '허깅페이스'를 통해 'K-MMLU(Measuring Massive Multitask Language Understanding in Korean)'를 공개했다. 네이버클라우드는 오픈소스 언어모델(LM) 연구팀인 '해례(HAERAE)' 팀과 협업을 통해 이를 구축했다.

MMLU(대규모다중작업언어이해)는 AI 테스트의 일종이다. 수학·물리학·역사·법률·의학·윤리 등 57개의 주제를 복합적으로 활용해 AI의 지식과 문제 해결 능력을 평가하는 지표다. 오픈AI와 구글 등 LLM 선두 업체들도 MMLU 결과를 토대로 자사 모델의 우수성을 설명한다. 다만 기존 MMLU는 아무래도 영어에 기준이 맞춰져 있었다. 즉 K-MMLU를 통해 한국어 LLM의 성능을 객관적으로 짚어볼 수 있는 셈이다.

K-MMLU 개발팀은 아카이브에 게재된 논문 소개글에서 "기존 영어 벤치마크를 번역한 한국어 벤치마크와 달리, K-MMLU는 한국어 시험에서 데이터를 직접 수집해 한국어의 언어적·문화적 측면을 반영한다"고 설명했다. 이를 통해 한국어는 물론 한국에 특화된 다양한 지식들까지 평가할 수 있다. 향후 한국어 LLM이나 sLLM을 만드는 개발자들이 이를 통해 언어모델의 성능을 보다 정확하게 확인할 수 있게 될 전망이다.

한편 이날 하정우 네이버 퓨처 AI 센터장은 자신의 페이스북을 통해 K-MMLU로 평가한 하이퍼클로바X의 평가 결과를 공개했다. 이에 따르면, 하이퍼클로바X는 K-MMLU 평가 항목 중 '한국 특화 지식(Korea-Specific)'에서 제미나이 프로(42.94), GPT-4(54.89)보다 더 높은 55.21점을 기록했다. 한국 문화나 법‧제도를 묻는 질문에 대해서는 하이퍼클로바X가 GPT-4나 제미나이 프로보다 더 정확한 답을 낼 수 있다는 의미다.

한국 특화 지식이 아닌 일반적인 지식 측면에서는 GPT-4가 60.49점으로 하이퍼클로바X(54.32)를 앞섰다. 다만 여기서도 하이퍼클로바X는 제미나이 프로(48.64)와 GPT-3.5 터보(42.47)를 제치며 전반적인 한국어 처리 능력이 우수함을 입증했다.

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
0개의 댓글
0 / 300

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

댓글을 삭제 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기

이미 신고 접수한 게시물입니다.

닫기
신고사유
0 / 100
닫기

신고접수가 완료되었습니다. 담당자가 확인후 신속히 처리하도록 하겠습니다.

닫기

차단해제 하시겠습니까?

닫기

사용자 차단 시 현재 사용자의 게시물을 보실 수 없습니다.

닫기
실시간 인기
기사 이미지 확대 보기
닫기