트웰브랩스, 인간 수준으로 영상 이해하는 '마렝고 3.0' 공개

라스베이거스(미국)=박진영 기자입력 2025-12-02 04:33

기사공유
폰트크기

업계 최초 복합 이미지·고유명사 검색 기능
스토리지 비용 50% 절감·인덱싱 속도 2배 향상

글로벌 영상 기반 멀티모달 인공지능(AI) 기술 개발 스타트업 트웰브랩스는 차세대 영상 AI 모델 '마렝고 3.0(Marengo 3.0)'을 공식 출시했다고 2일 밝혔다.

이번 신제품은 단순히 영상을 ‘보는’ 수준을 넘어, 영상 속 장면의 텍스트·음성·움직임·상황 맥락을 통합적으로 이해하는 차세대 비디오 파운데이션 모델로, 트웰브랩스가 지금까지 선보인 모델 중 가장 강력한 기능을 갖췄다.

마렝고 3.0은 영상 속 대사와 몇 분 후에 등장하는 동작을 연결해 해석하고, 사물·행동·감정·상황 변화를 시간의 흐름에 따라 추적하는 등 인간에 가까운 수준의 영상 이해 능력을 구현한다고 회사 측은 강조했다.

특히 업계 최초로 △이미지와 텍스트를 동시에 검색할 수 있는 ‘복합 이미지 검색’ 기능과 △‘사람’이나 ‘제품’을 별도로 등록해 찾아볼 수 있는 ‘고유명사 검색’ 기능도 도입됐다.

관련기사

이번 모델은 36개 언어를 지원해 글로벌 기업 환경에서도 안정적으로 활용할 수 있다. 또한 수차례 정교한 테스트를 통해 스토리지 비용 50% 절감, 인덱싱 속도 2배 향상 등의 즉각적인 효율성도 개선됐다.

마렝고 3.0은 기존 프레임 기반 분석이나 이미지·오디오 모델의 단순 조합 방식에서 벗어나, 영상 이해를 위해 처음부터 설계된 네이티브 파운데이션 구조를 기반으로 영상 전체를 시간·공간적으로 해석하는 고유한 구조를 갖추고 있다.

이를 통해 장면 간의 연속성과 맥락을 자연스럽게 파악하며, 스포츠·미디어·엔터테인먼트·광고 등 고난도 콘텐츠에 대한 이해 능력이 대폭 강화됐다. 공공·보안 등의 영상 분석 환경에서도 높은 정확도를 보인다.

다양한 산업 현장에서 즉시 활용 가능하는 것이 강점이다.

프로 스포츠 리그에서는 특정 선수의 득점 장면이나 결정적 플레이만을 즉시 검색해서 찾아내 하이라이트를 빠르게 제작할 수 있다.

방송·포스트 프로덕션 분야에서는 수십 년치 아카이브에서 특정 유명인의 얼굴을 고유명사로 등록해 원하는 행동을 하는 장면을 몇 초 만에 찾아낼 수 있다.

공공보안 쪽에서는 CCTV 영상 전체를 몇시간씩 볼 필요 없이 빠르게 원하는 장면만을 정확하게 찾아낼 수 있으며, 이커머스 분야에서도 브랜드, 제품, 혹은 호스트가 언제 등장하고 어떤 행동을 하고 있는지 원하는대로 즉시 검색해 볼 수 있다.

이재성 트웰브랩스 대표는 "전 세계 디지털 데이터의 90%가 영상인데 사람이 직접 분석하기에 너무 오래 걸리고, 기존 기술로는 모든 것을 파악하기 어려워서 그동안 대부분 제대로 활용되지 못했고, 이 문제를 해결하는 것이 우리의 목표였다"면서 "마렝고 3.0은 그동안 영상 이해 기술이 가졌던 한계를 완전히 뛰어넘는 모델로, 기업과 개발자에게 기존과 다른 혁신적인 기준을 제시할 것"이라고 출시 소감을 밝혔다.

한편, 마렝고 3.0은 아마존웹서비스(AWS)의 아마존 베드락에도 공개된다. 니샨트 메타 AWS AI 인프라 부문 부사장은 "트웰브랩스의 영상 이해 기술은 그동안 수작업 중심이었던 영상 분석 프로세스에 전례 없는 속도와 효율성을 제공하며 산업 전반의 혁신을 이끌고 있다"며 "마렝고와 페가수스 모델이 아마존 베드록에서 큰 성과를 거둔 데 이어, 마렝고 3.0은 세계 최고 수준의 영상 이해 능력을 필요로 하는 고객들에게 최적의 솔루션이 될 것으로 기대한다"고 말했다.