SK텔레콤은 '언어신동 AI’에 어떻게 한국어를 가르쳤을까

임민철 기자입력 2020-10-12 00:05

기사공유
폰트크기

영어만 익힌 원형 AI에 한국어 문장 수천만개 가르쳐
한국어 문장 이해·생성 뛰어난 KoBERT·KoGPT2 개발
아마존 클라우드자원·AI기술전문가 도움으로 최적화
다른 활용도 높은 AI '한국어 버전'도 후속 출시 예고

사람에게 편리한 인터넷 검색 서비스나 스마트 스피커 기기는 그 안에 뛰어난 인공지능(AI)의 힘을 품고 있다. AI가 사람의 언어를 잘 이해하고 사용자에게 원하는 결과를 제공하려면 뛰어난 자연어처리(NLP) 능력을 갖춰야 한다. NLP는 문서요약·질의응답, 챗봇 대화, 번역, 문장·글 생성, 자동완성, 기계독해, 상식 추론 같은 분야의 문제를 풀기 위한 기술이다.

이런 기술을 확보하기 위해 SK텔레콤 'AI랭귀지테크랩스(ALT Labs)' 연구원들은 한국어를 잘 다루는 AI '코버트(KoBERT)'와 'KoGPT2'를 잇따라 개발했다. 사내에서 KoBERT는 상담 챗봇, 법무·특허등록 지원용 AI 검색, 내부 마케팅 자료에서 질문에 알맞은 답을 추출하는 '기계독해' 기술에 쓰였다. KoGPT2는 챗봇의 고객응대 말투에 자연스러움을 더했다.

이 SK텔레콤의 AI 기술들은 일부 NLP 영역에서 기존 한국어 AI 기술보다 뛰어난 성능을 보여 준다. SK텔레콤 ALT Labs 측은 "네이버 영화 리뷰 데이터(NSMC)를 활용한 '감정분석 분류' 작업에서 KoBERT는 90.1%, KoGPT2는 89.9%의 성능(정확도)을 보인다"며 "KoBERT 사용 이전에 이 작업은 일반적으로 83~85%의 정확도를 보인다고 알려져 있었다"고 설명했다.

KoBERT와 KoGPT2 개발에 참여한 SK텔레콤 AI랭귀지테크랩스(ALT Labs) 연구원들. (왼쪽위부터 시계방향으로) 전희원 리서치엔지니어, 김진 리서치엔지니어, 데이비스 에릭 하트만 소장, 김태윤 리더. [사진=SK텔레콤 제공]

KoBERT의 원형은 구글이 지난 2018년 10월 공개한 버트(BERT)이며, KoGPT2의 원형은 오픈AI가 지난해 공개한 GPT-2다. BERT는 영어 읽기, GPT-2는 영어 쓰기에 특출난 '언어 신동' AI로 유명세를 얻었다. SK텔레콤은 이들에게 한국어를 열심히 가르친 결과, 내부 업무에 활용해 성과를 얻었고, 지난해 10월 KoBERT를, 올해 2월엔 KoGPT2를 각각 오픈소스로 공개했다.

관련기사

SK텔레콤 ALT Labs 전문가들은 두 AI를 어떻게 만들었을까. 우선 방대한 한국어 데이터를 접하게 했다. KoBERT에는 위키 문서의 문장 500만개(5400만단어)와 뉴스 문장 2000만개(2억7000만단어)가 사용됐다. KoGPT2에는 위키 문장 500만개, 뉴스 문장 1억2000만개(16억단어), 기타 자료 문장 940만개(8800만단어) 및 문장 1800만개(8200만단어)가 동원됐다.

처리할 데이터가 방대했던 만큼, 컴퓨터 자원이 많이 필요했다. 별도의 외부 클라우드서비스를 활용해야 했고, 이를 낭비 없이 쓸 수 있어야 했다. SK텔레콤은 클라우드서비스 회사 아마존웹서비스(AWS)의 도움을 받았다. 이에 더해 아마존 머신러닝솔루션즈랩이 대용량 학습 인프라 환경을 구축했고, AWS 글루온NLP 팀이 학습코드 최적화를 지원했다.

[사진=게티이미지뱅크]

SK텔레콤 ALT Labs 측은 "KoGPT2 학습 당시 대용량학습을 위한 자원이 충분치 않았는데, AWS에서 이에 필요한 적지 않은 자원을 제공해 줬다"고 밝혔다. KoBERT 학습에 2개월간 엔비디아의 '테슬라 V100' GPU 16개, KoGPT2 학습에 1주일간 V100 64개가 사용됐다. V100은 AI 연산에 특화된 GPU로, 개당 가격 1000만원이 넘는 부품이다.

외부 개발자와 기업들은 SK텔레콤이 오픈소스로 공개한 KoBERT와 KoGPT2를 활용해 특정한 목적의 AI 기술을 더 효율적으로 개발할 수 있게 됐다. SK텔레콤 측은 "우리가 공개한 것은 다양한 언어처리 작업에 널리 쓰이는 것을 전제로 사전학습된(pre-trained) 모델"이라며 "대화나 질문에 대한 답변 등에 추가 학습으로 특화시켜 활용도를 높일 수 있다"고 설명했다.

해외에선 BERT와 GPT-2 이후 더 성능이 뛰어난 AI 기술이 나오고 있다. 구글은 지난해 카네기멜런대학교와 공동연구로 'XLNet'을, 시카고대학교 도요타공업대학원(TTIC)과 공동연구로 'ALBERT'를, 자체 연구로 'T5'를 줄줄이 내놨다. 오픈AI도 GPT-2 후속 버전인 'GPT-3'를 올해 출시했다.

더 뛰어난 AI라 해도 아직 여러 언어의 장벽을 스스로 뛰어넘지는 못한다. 여전히 한국어 성능을 높이기 위한 추가 작업을 필요로 한다는 얘기다. SK텔레콤은 "KoBERT와 KoGPT2는 문장 이해와 문장 생성 분야에서 가장 대표적인 모델"이라면서도 "정확한 모델명을 언급하긴 어렵지만 이외에도 활용도가 높은 몇가지 모델의 한국어 버전을 개발하고 있다"고 밝혔다.