마이크로소프트·오픈AI의 '챗GPT', 구글·딥마인드의 '바드' 등 빅테크의 초거대언어모델(LLM)에 대응하기 위해 학계와 오픈소스 진영에서 소형언어모델(sLLM)을 잇달아 선보이고 있다. 빅테크가 자사 인공지능(AI) 기술을 오픈소스로 외부에 공개하지 않고 폐쇄적인 정책을 이어가는 것에 반발해 등장한 소형언어모델은 뇌의 신경망에 해당하는 매개변수(파라미터)가 초거대언어모델보다 적지만 AI 핵심 기술인 모델이 누구나 무료로 이용할 수 있도록 공개돼 있어 각국 기업과 정부가 많은 관심을 보내고 있다. AI용 데이터와 인프라를 갖추고 있고 경영·행정에 AI를 도입하려는 의지도 있지만 내부 데이터 및 개인정보 유출 문제로 빅테크의 초거대언어모델 활용을 꺼렸던 각국 기업과 정부가 올 상반기부터 소형언어모델을 활용한 독자 AI 개발에 속도를 낼 전망이다.
◆"빅테크 초거대 AI에 반발...소형AI 뜬다"
23일 AI 업계에 따르면 영국의 AI 스타트업 스테빌리티AI는 지난 20일 오픈소스 사이트 깃허브에 소형언어모델 '스테이블LM'을 공개했다. 스테빌리티AI는 지난 2021년 방글라데시계 영국인 에마드 모스타크가 독일 뮌헨 대학교 AI 연구소를 포함해 7개 AI 연구기관의 지원을 받아 설립한 AI 스타트업이다.
현재 '스테이블LM 알파 버전'의 매개변수는 78억개로, 1750억개 이상의 매개변수를 갖춘 챗GPT와 1370억개 내외의 매개변수를 가진 바드와 비교하면 아직 갈 길이 멀다. 영어와 스페인어로만 대화할 수 있고 한국·일본·중국어 등 아시아권 언어는 제대로 지원하지 못하는 한계도 있다.
그런데도 업계가 스테이블LM을 주목하는 이유는 스테빌리티AI가 언어모델(대화하는 AI)과 함께 생성 AI 업계의 양대 축으로 꼽히는 이미지모델(그림 그려주는 AI) 분야에서 오픈AI의 '달리'(DALL-E)와 '미드저니'를 제치고 업계를 장악한 '스테이블 디퓨전'의 경험을 살려 누구나 독자 AI 개발에 참여할 수 있는 오픈소스 전략을 취하고 있기 때문이다.
스테빌리티AI가 지난해 오픈소스로 공개한 스테이블 디퓨전은 허깅페이스·디스코드 등 트랜스포머 모델 공유 사이트와 SNS를 통한 이용자의 참여로 AI 모델 다양성이라는 성과를 이뤄냈다. 누구나 스테이블 디퓨전 기본 AI 모델을 학습시켜 원하는 방향성(파인튜닝)을 끌어낼 수 있다. 이렇게 학습된 AI 모델 데이터는 허깅페이스·디스코드 등을 통해 공유되며 지속해서 다듬어지고 있다. 스테빌리티AI에 따르면 전 세계 13만명이 넘는 AI 개발자가 스테빌리티AI의 오픈소스 전략에 뜻을 같이하며 AI 모델 개발에 힘을 보태고 있다.
이용자는 이렇게 학습된 모델 데이터를 PC에 내려받아 AI에 그림을 만들라고 요청할 수 있다. 학습한 데이터에 따라 실제 사진 같은 그림부터 애니메이션과 풍경화까지 다양한 결과물을 얻을 수 있다. 이를 토대로 AI에 어떤 명령어(프롬프트)를 입력해야 최적의 결과물을 얻을 수 있는지 연구하는 모임까지 생겨날 정도다.
소형언어모델도 마찬가지다. 비록 초거대언어모델보다 일상적인 대화 능력은 떨어지지만, 학습 데이터의 질에 따라 특정 분야에선 초거대언어모델을 능가하는 답변 능력을 보여줄 잠재력이 있다. 스탠퍼드대학교 AI 연구소가 선보인 소형언어모델 '알파카(매개변수 70억개)'의 경우 연구진은 알파카의 성능이 기대 이상이라며 이메일·SNS 글 작성을 놓고 챗GPT와 비교한 결과 90개 항목에서 앞서는 성과를 냈다고 밝혔다. 다만 소형언어모델의 기본 성능은 크게 떨어지는 만큼 AI 도입에 앞서 기업·정부의 파인튜닝은 필수라는 연구결과도 덧붙였다.
또, 소형언어모델은 매개변수가 적어 AI 모델 학습에 필요한 AI 반도체 인프라 규모가 작아도 된다는 이점이 있다. 일례로 알파카는 AI 반도체를 탑재한 PC 8대를 활용해 3시간 만에 학습을 끝냈다. 전기료 등 학습비용은 600달러에 불과했다. AI 스타트업 데이터브릭스의 소형언어모델 '돌리'도 학습 시간은 3시간에 불과했으며 비용은 30달러 수준에 불과한 것으로 알려졌다. 스테이블LM 학습에 필요한 인프라와 비용도 비슷할 전망이다.
AI 모델 학습에 수천만 달러의 비용이 투입된 초거대언어모델과 비교해 크게 경제적이다. 기업뿐 아니라 대학 연구소와 개인도 학습비용을 충분히 감당할 수 있다. 기업·정부·개인이 독자적인 챗봇을 만들어서 다양한 곳에 활용하는 것을 일상으로 만들 잠재력이 있다.
알리 고드시 데이터브릭스 최고경영자는 "챗GPT가 세상 모든 정보를 학습했지만, 기업은 세상의 모든 정보를 필요로 하지는 않는다. 챗GPT는 회사가 보유한 데이터를 학습한 적도 없다"며 기업·정부만의 독자적인 언어모델 확보의 필요성을 강조했다
AI 업계에선 과거 클라우드 업계에서 화두가 된 퍼블릭 클라우드와 프라이빗 클라우드(온프레미스 포함)의 대립이 언어모델에서도 재현될 것으로 보고 있다. 전체적인 시장 성장은 빅테크의 초거대언어모델이 이끌겠지만, 기업·개인정보유출을 우려하는 각국 기업과 정부가 소형언어모델을 독자적으로 파인튜닝해서 자체 인프라를 통해 운영하는 모습도 보편화할 전망이다.
기업용 소형언어모델을 만드는 AI 스타트업 갓잇AI의 피터 레란 최고경영자는 "모든 기업에 크고 강력한 언어모델이 필요한 것은 아니다"라며 "데이터가 외부로 나가는 것을 원치 않는 기업도 많다"고 말했다.
◆챗GPT급 초거대 AI 모델도 오픈소스 공개...연말 출시 예상
그렇다면 다양한 분야 지식을 토대로 일상적인 대화를 할 수 있는 초거대언어모델은 전적으로 빅테크에 기대야하는 것일까? 스테빌리티AI는 이 점에 대한 기업 고민 해결에도 나섰다. 스테이블LM의 매개변수를 지속해서 확대해 장기적으로 1750억개로 확대할 계획이다. 바드보다 많고 챗GPT와 대등하다. 스테빌리티AI는 현재 매개변수 150억개와 300억개 모델 개발을 마무리하고 곧 공개할 예정이며, 650억개 모델 개발도 진행 중이다. 빅테크와 대등한 매개변수 1750억개 모델은 올해 말에서 내년 초 공개할 것으로 보인다.
스테빌리티AI는 "언어모델은 디지털 경제의 중추를 형성할 것이고, 많은 사람이 자신만의 AI를 갖길 원한다. AI 기술 투명성을 촉진하고 신뢰를 얻기 위해 모델을 오픈소스로 공개했다. 오픈소스 AI 모델을 통해 모든 기업·정부가 파인튜닝으로 독자적인 AI를 개발하고 AI의 내부를 들여다볼 수 있게 될 것"이라며 "한두 회사(마이크로소프트·구글)가 AI 생태계를 독점하는 것을 막는 효과도 기대된다"고 밝혔다.
스테빌리티AI는 장기적으로 메타(페이스북)가 지난 3월 오픈소스로 공개한 초거대·소형언어모델 '라마'와 경쟁할 것으로 예상된다. 메타는 챗GPT로 인해 흔들리는 AI 시장 지배력을 되찾기 위해 자사 언어모델을 오픈소스로 외부에 공개한다는 결정을 내렸다. 라마는 현재 매개변수 70억개, 130억개, 330억개, 650억개 등 네 종류의 AI 모델로 구성돼 있다. 기업·정부·연구소는 필요와 목적에 따라 모델을 골라서 파인튜닝에 나설 수 있다.
업계에선 언어모델 시장 주도권을 두고 향후 마이크로소프트·오픈AI, 구글·딥마인드 등 빅테크 진영과 스테빌리티AI, 페이스북 등 오픈소스 진영의 경쟁이 한층 치열해질 것으로 보고 있다.
현재는 빅테크 진영이 기술과 사업적인 면에서 크게 앞서있지만, 오픈소스 전략으로 인한 유럽·중국 기업과 개발자 참여가 향후 변수로 작용할 전망이다. 일례로 이미지모델 시장은 초기에는 비공개 AI인 달리·미드저니가 앞섰지만 스테이블 디퓨전의 오픈소스 공개 후 모델 학습에 유럽·중국 AI 개발자들이 대거 참여함에 따라 상황이 역전됐다. 언어모델 시장에도 비주류로 밀려 있는 유럽·중국 개발자들의 오픈소스 진영 참여가 예상된다.
여기에 자신과 결별한 오픈AI를 견제하기 위해 일론 머스크 테슬라·트위터 최고경영자도 AI 기업 'X AI(엑스AI)'를 설립하고 '트루스GPT'를 개발하겠다고 밝히며 관련 시장이 달아오르고 있다. 머스크는 마이크로소프트·오픈AI가 거짓말을 자연스럽게 하는 문제(할루시네이션)를 해결하지 않고 챗GPT를 공개한 것은 옳지 않다고 지적하며 "챗GPT는 정치적 올바름(PC)을 말하거나 혹은 진실하지 않은 것을 말하도록 훈련되고 있다. 오픈 AI는 처음에는 좋은 의도로 설립된 기관이었지만, 이제는 불분명하다"고 말했다.
머스크는 2015년 샘 올트먼 오픈AI 최고경영자와 함께 오픈AI를 창업한 주요 투자자였지만 2018년 사업에 대한 이견으로 결별했다. 이후 오픈AI는 마이크로소프트를 주요 투자자로 맞이하며 공동 전선을 펼치고 있다. 머스크의 발언을 고려하면 트루스GPT는 트위터로 확보한 방대한 언어 데이터를 활용해 학습되며 윤리 필터를 약화함으로써 우파적 답변도 가능할 것으로 예상된다.
◆"빅테크 초거대 AI에 반발...소형AI 뜬다"
23일 AI 업계에 따르면 영국의 AI 스타트업 스테빌리티AI는 지난 20일 오픈소스 사이트 깃허브에 소형언어모델 '스테이블LM'을 공개했다. 스테빌리티AI는 지난 2021년 방글라데시계 영국인 에마드 모스타크가 독일 뮌헨 대학교 AI 연구소를 포함해 7개 AI 연구기관의 지원을 받아 설립한 AI 스타트업이다.
현재 '스테이블LM 알파 버전'의 매개변수는 78억개로, 1750억개 이상의 매개변수를 갖춘 챗GPT와 1370억개 내외의 매개변수를 가진 바드와 비교하면 아직 갈 길이 멀다. 영어와 스페인어로만 대화할 수 있고 한국·일본·중국어 등 아시아권 언어는 제대로 지원하지 못하는 한계도 있다.
스테빌리티AI가 지난해 오픈소스로 공개한 스테이블 디퓨전은 허깅페이스·디스코드 등 트랜스포머 모델 공유 사이트와 SNS를 통한 이용자의 참여로 AI 모델 다양성이라는 성과를 이뤄냈다. 누구나 스테이블 디퓨전 기본 AI 모델을 학습시켜 원하는 방향성(파인튜닝)을 끌어낼 수 있다. 이렇게 학습된 AI 모델 데이터는 허깅페이스·디스코드 등을 통해 공유되며 지속해서 다듬어지고 있다. 스테빌리티AI에 따르면 전 세계 13만명이 넘는 AI 개발자가 스테빌리티AI의 오픈소스 전략에 뜻을 같이하며 AI 모델 개발에 힘을 보태고 있다.
이용자는 이렇게 학습된 모델 데이터를 PC에 내려받아 AI에 그림을 만들라고 요청할 수 있다. 학습한 데이터에 따라 실제 사진 같은 그림부터 애니메이션과 풍경화까지 다양한 결과물을 얻을 수 있다. 이를 토대로 AI에 어떤 명령어(프롬프트)를 입력해야 최적의 결과물을 얻을 수 있는지 연구하는 모임까지 생겨날 정도다.
소형언어모델도 마찬가지다. 비록 초거대언어모델보다 일상적인 대화 능력은 떨어지지만, 학습 데이터의 질에 따라 특정 분야에선 초거대언어모델을 능가하는 답변 능력을 보여줄 잠재력이 있다. 스탠퍼드대학교 AI 연구소가 선보인 소형언어모델 '알파카(매개변수 70억개)'의 경우 연구진은 알파카의 성능이 기대 이상이라며 이메일·SNS 글 작성을 놓고 챗GPT와 비교한 결과 90개 항목에서 앞서는 성과를 냈다고 밝혔다. 다만 소형언어모델의 기본 성능은 크게 떨어지는 만큼 AI 도입에 앞서 기업·정부의 파인튜닝은 필수라는 연구결과도 덧붙였다.
또, 소형언어모델은 매개변수가 적어 AI 모델 학습에 필요한 AI 반도체 인프라 규모가 작아도 된다는 이점이 있다. 일례로 알파카는 AI 반도체를 탑재한 PC 8대를 활용해 3시간 만에 학습을 끝냈다. 전기료 등 학습비용은 600달러에 불과했다. AI 스타트업 데이터브릭스의 소형언어모델 '돌리'도 학습 시간은 3시간에 불과했으며 비용은 30달러 수준에 불과한 것으로 알려졌다. 스테이블LM 학습에 필요한 인프라와 비용도 비슷할 전망이다.
AI 모델 학습에 수천만 달러의 비용이 투입된 초거대언어모델과 비교해 크게 경제적이다. 기업뿐 아니라 대학 연구소와 개인도 학습비용을 충분히 감당할 수 있다. 기업·정부·개인이 독자적인 챗봇을 만들어서 다양한 곳에 활용하는 것을 일상으로 만들 잠재력이 있다.
알리 고드시 데이터브릭스 최고경영자는 "챗GPT가 세상 모든 정보를 학습했지만, 기업은 세상의 모든 정보를 필요로 하지는 않는다. 챗GPT는 회사가 보유한 데이터를 학습한 적도 없다"며 기업·정부만의 독자적인 언어모델 확보의 필요성을 강조했다
AI 업계에선 과거 클라우드 업계에서 화두가 된 퍼블릭 클라우드와 프라이빗 클라우드(온프레미스 포함)의 대립이 언어모델에서도 재현될 것으로 보고 있다. 전체적인 시장 성장은 빅테크의 초거대언어모델이 이끌겠지만, 기업·개인정보유출을 우려하는 각국 기업과 정부가 소형언어모델을 독자적으로 파인튜닝해서 자체 인프라를 통해 운영하는 모습도 보편화할 전망이다.
기업용 소형언어모델을 만드는 AI 스타트업 갓잇AI의 피터 레란 최고경영자는 "모든 기업에 크고 강력한 언어모델이 필요한 것은 아니다"라며 "데이터가 외부로 나가는 것을 원치 않는 기업도 많다"고 말했다.
◆챗GPT급 초거대 AI 모델도 오픈소스 공개...연말 출시 예상
그렇다면 다양한 분야 지식을 토대로 일상적인 대화를 할 수 있는 초거대언어모델은 전적으로 빅테크에 기대야하는 것일까? 스테빌리티AI는 이 점에 대한 기업 고민 해결에도 나섰다. 스테이블LM의 매개변수를 지속해서 확대해 장기적으로 1750억개로 확대할 계획이다. 바드보다 많고 챗GPT와 대등하다. 스테빌리티AI는 현재 매개변수 150억개와 300억개 모델 개발을 마무리하고 곧 공개할 예정이며, 650억개 모델 개발도 진행 중이다. 빅테크와 대등한 매개변수 1750억개 모델은 올해 말에서 내년 초 공개할 것으로 보인다.
스테빌리티AI는 "언어모델은 디지털 경제의 중추를 형성할 것이고, 많은 사람이 자신만의 AI를 갖길 원한다. AI 기술 투명성을 촉진하고 신뢰를 얻기 위해 모델을 오픈소스로 공개했다. 오픈소스 AI 모델을 통해 모든 기업·정부가 파인튜닝으로 독자적인 AI를 개발하고 AI의 내부를 들여다볼 수 있게 될 것"이라며 "한두 회사(마이크로소프트·구글)가 AI 생태계를 독점하는 것을 막는 효과도 기대된다"고 밝혔다.
스테빌리티AI는 장기적으로 메타(페이스북)가 지난 3월 오픈소스로 공개한 초거대·소형언어모델 '라마'와 경쟁할 것으로 예상된다. 메타는 챗GPT로 인해 흔들리는 AI 시장 지배력을 되찾기 위해 자사 언어모델을 오픈소스로 외부에 공개한다는 결정을 내렸다. 라마는 현재 매개변수 70억개, 130억개, 330억개, 650억개 등 네 종류의 AI 모델로 구성돼 있다. 기업·정부·연구소는 필요와 목적에 따라 모델을 골라서 파인튜닝에 나설 수 있다.
업계에선 언어모델 시장 주도권을 두고 향후 마이크로소프트·오픈AI, 구글·딥마인드 등 빅테크 진영과 스테빌리티AI, 페이스북 등 오픈소스 진영의 경쟁이 한층 치열해질 것으로 보고 있다.
현재는 빅테크 진영이 기술과 사업적인 면에서 크게 앞서있지만, 오픈소스 전략으로 인한 유럽·중국 기업과 개발자 참여가 향후 변수로 작용할 전망이다. 일례로 이미지모델 시장은 초기에는 비공개 AI인 달리·미드저니가 앞섰지만 스테이블 디퓨전의 오픈소스 공개 후 모델 학습에 유럽·중국 AI 개발자들이 대거 참여함에 따라 상황이 역전됐다. 언어모델 시장에도 비주류로 밀려 있는 유럽·중국 개발자들의 오픈소스 진영 참여가 예상된다.
여기에 자신과 결별한 오픈AI를 견제하기 위해 일론 머스크 테슬라·트위터 최고경영자도 AI 기업 'X AI(엑스AI)'를 설립하고 '트루스GPT'를 개발하겠다고 밝히며 관련 시장이 달아오르고 있다. 머스크는 마이크로소프트·오픈AI가 거짓말을 자연스럽게 하는 문제(할루시네이션)를 해결하지 않고 챗GPT를 공개한 것은 옳지 않다고 지적하며 "챗GPT는 정치적 올바름(PC)을 말하거나 혹은 진실하지 않은 것을 말하도록 훈련되고 있다. 오픈 AI는 처음에는 좋은 의도로 설립된 기관이었지만, 이제는 불분명하다"고 말했다.
머스크는 2015년 샘 올트먼 오픈AI 최고경영자와 함께 오픈AI를 창업한 주요 투자자였지만 2018년 사업에 대한 이견으로 결별했다. 이후 오픈AI는 마이크로소프트를 주요 투자자로 맞이하며 공동 전선을 펼치고 있다. 머스크의 발언을 고려하면 트루스GPT는 트위터로 확보한 방대한 언어 데이터를 활용해 학습되며 윤리 필터를 약화함으로써 우파적 답변도 가능할 것으로 예상된다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지