
NC소프트 인공지능(AI) 연구 조직인 NC AI가 차세대 인공지능 모델 '바르코-비전 2.0(VARCO-VISION 2.0)'을 공개하며 멀티모달(텍스트·이미지·음성·영상 등 동시 처리) AI 기술 경쟁에 본격적으로 뛰어들었다.
NC AI는 16일 텍스트와 이미지를 동시에 이해하는 멀티모달 AI 모델 4종을 개방형으로 공개한다고 밝혔다.
공개된 모델은 △14B(140억 파라미터) 모델 △1.7B 경량 모델 △OCR(광학문자인식) 특화 모델 △멀티모달 임베딩(AI 이해도 높이는 숫자 배열 변환) 모델 등 총 4종이다.
14B 모델은 세계적인 수준의 성능을 입증했다. NC AI에 따르면, 이 모델은 이미지-텍스트 결합 모델 중 글로벌 최고 성능으로 알려진 InternVL3-14B, 알리바바의 Ovis2-16B, Qwen2.5-VL 7B 등을 뛰어넘는 결과를 기록했다.
한국어 이미지 이해, OCR(이미지 내 글자 인식), 영문 이미지 분석 등 다양한 테스트에서 우수한 성과를 보였다.
바르코-비전 2.0은 단일 이미지뿐 아니라 여러 장의 이미지를 동시에 분석할 수 있는 것이 특징이다. 복잡한 표, 차트, 문서를 포함한 자료도 정확히 인식하고 요약하거나 질의응답하는 방식으로 처리할 수 있다. 한국어와 영어 모두 자연스럽게 이해할 수 있어 국내외 활용 범위도 넓다.
업무 환경 뿐 아니라 개인 기기에서도 활용할 수 있도록 경량 모델도 함께 준비됐다. 1.7B 모델은 스마트폰, PC 등에서도 작동 가능하도록 설계됐다. 이 모델은 차주 중 오픈소스로 공개될 예정이다.
OCR 특화 모델은 이미지 속 글자를 정확히 인식하는 데 집중된 모델이다. 흐릿하거나 배경이 복잡한 이미지에서도 문맥과 시각적 단서를 통해 정밀한 텍스트 인식이 가능하다. 한국어 인식 능력이 특히 강화된 것으로 평가된다.
멀티모달 임베딩 모델은 텍스트, 이미지, 비디오를 벡터(숫자)로 변환해 의미상 유사성을 계산할 수 있다. 사용자의 질의에 따라 관련성 높은 이미지나 영상을 찾아주는 검색 기술에 활용될 수 있다.
이번 모델들은 금융, 교육, 문화, 쇼핑, 제조 등 다양한 산업 분야에 폭넓게 활용 가능하다. 복잡한 계약서나 청구서의 자동 정리, 표·차트가 포함된 문서의 요약, 주문서의 자동 분석 등에서 활용할 수 있다.
이연수 NC AI 대표는 "글만 처리하던 언어모델 중심의 AI 기술이 이제는 이미지와 영상까지 포괄하는 비전-언어모델로 확장되고 있다"며 "NC AI는 이번 모델 공개를 통해 미디어, 게임, 패션 등 다양한 분야에서 국내 멀티모달 AI 기술을 선도할 수 있는 기반을 마련했다"고 말했다.
한편, 이번에 공개된 모델들은 연구 목적으로 오픈소스로 제공돼 기업과 개인, 공공기관 누구나 자유롭게 활용할 수 있다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지