업스테이지, 한국 LLM 독립 위한 AI 모델-데이터 생태계 만든다… '1T 클럽' 발족

임민철 기자입력 2023-08-14 09:16

기사공유
폰트크기

글로벌 머신러닝 플랫폼 허깅페이스의 언어 인공지능(AI) 기술 경연장 ‘오픈 LLM 리더보드’에서 최상위 점수를 획득한 스타트업 업스테이지가 한국의 고성능 거대 언어 모델(LLM) 개발을 위한 ‘1T 클럽’을 발족한다. 1T 클럽은 ‘1조개(1 Trillion) 토큰 클럽’ 줄임말로, 한국어 데이터 1억 단어 이상을 기여하는 파트너사가 모여 구성된다.

업스테이지는 14일 한국어 데이터 부족 문제를 해결하고 고성능 LLM 개발을 통해 대한민국 LLM 독립을 실현하는 1T 클럽을 발족한다고 밝혔다. 1T 클럽으로 한국어 데이터를 확보하고 공유해 한국 문화 정서를 담아낼 고품질 LLM을 개발하고 국내 다양한 분야 생성 AI 애플리케이션에 활용해 AI 발전에 기여할 것으로 기대 중이다. 공식 웹사이트에서 출판사, 언론사, 미디어 회사, 크라우드소싱 업체, 정부기관, 학계, 비영리단체, 개인 등의 1T 클럽 참여 신청을 받고 있다.

업스테이지는 한국어 데이터가 한국 LLM 기술 발전에 필수 자원이지만 상당히 부족하고 저작권 문제에서 자유롭지 못한 상황이라고 지적했다. 빅테크 LLM은 외국어 중심으로 학습해 한국어 실력과 정서, 지역적 정보에 취약하기 때문에 국내 기업이 활용할 ‘프라이빗 LLM’ 발전에 걸림돌이라고 진단했다.

오픈 LLM 분야 최고 모델로 꼽히는 메타(전 페이스북)의 ‘라마2’는 2조개 분량 토큰을 학습했고 구글 ‘람다’는 2조8100억개 토큰 데이터를 학습했다. 챗GPT 출시 전 놀라운 성능을 보여 주목 받은 오픈AI의 ‘GPT-3’가 학습한 한국어 데이터 규모는 토큰 1억개 가량이다. 이 모델이 학습한 한국어 비율(0.01697%)은 28위에 그치는 반면, 영어는 토큰 45조개를 학습했고 그에 비례해 뛰어난 성능을 보여 준다. LLM은 학습한 데이터 규모에 따라 처리하는 언어별 성능 격차를 만든다.

관련기사

업스테이지는 업계 선도 기업과 프라이빗 LLM 구축을 협의하고 한국어 LLM 발전에 기여할 다양한 분야 파트너사와 1T 클럽 중심 협력을 추진한다. 현재 언론사, 기업, 학계 등 데이터 제공자 20여곳과 파트너십을 맺기 위해 협의하고 있다. 업스테이지에 따르면 1T 클럽은 저작권 침해 소지가 있는 기존 크롤링 데이터 기반 AI 학습 같은 방식의 문제를 해소하고 데이터 제공자와 모델 제작자 모두가 혜택을 볼 수 있도록 운영된다.

1T 클럽 참여 파트너사에 데이터 제공량에 비례해 업스테이지 자체 제작 LLM API 사용료를 할인하고 LLM API 사업 수익을 공유하는 등 혜택을 제공한다. API 사용료 할인 혜택을 활용하는 파트너사는 예를 들어 1억 단어 분량 토큰을 제공하고 1억 토큰 분량 API를 무상으로 쓸 수 있다. LLM API 사업 수익 공유 방식은 업스테이지가 이 사업으로 창출한 수익 일부를 1T 클럽 수익 배분 재원으로 할당해 이를 각 파트너사가 기여한 데이터 양에 비례해 수익을 받는 것이다.

업스테이지는 데이터 보안과 개인정보보호에 만전을 기해 파트너사 제공 데이터를 모델의 사전훈련(pre-training) 학습 용도로만 사용한다. 이는 모델에 일반 지식, 글 요약, 정리 등 능력을 갖게 하되 원문을 추출할 수 없게 운영한다는 것을 의미한다. 데이터 내용을 다른 용도로 쓰거나 외부로 유출하지 않는 것은 물론이고 모델 탈옥(Jailbreak, 제작자가 설정한 기능 제한을 사용자가 우회해 LLM 동작 결과를 얻는 기법)을 방지하는 자체 기술로 원문 유출을 원천 차단한다.

김성훈 업스테이지 대표는 “LLM은 생성 AI 핵심 기술로 국내 다양한 업계 기업이 고성능 프라이빗 LLM을 자유롭게 활용하는 생태계를 만드는 게 중요하다”며 “1T 클럽을 통해 데이터 제공자 권익을 지키고 이를 바탕으로 한국문화 정서를 담아 내는 LLM을 개발해 국내 모든 기업이 AI 발전 수혜를 보도록 최선을 다하겠다”고 말했다.

업스테이지는 전 세계 오픈 LLM의 추론, 상식 능력, 언어 이해 종합능력, 환각(할루시네이션) 방지 등 네 가지 지표 평균 점수로 경쟁하는 오픈 LLM 리더보드에서 최고 점수 73점을 돌파한 모델을 배포했고 세계 1, 2위 모델을 제작한 회사로 이름을 알리고 있다.

임민철 기자imc@ajunews.com

기자의 다른기사