
중국 내 대형 기술업체인 알리바바·텐센트·바이두 등도 유의미한 성과를 내놓으며 국가 AI 경쟁력에 힘을 실어주고 있다. 현시점 기준으로 미국에 대항할 만한 AI 산업 성장을 보여주는 국가는 중국이 유일하다는 평가가 나오는 이유다. 차이나AI는 특히 콘텐츠 생성 AI 분야서 큰 영향력을 가질 것으로 전망된다.
'AI 성능' 미국 뒤쫓는 중국
AI 성능 평가 주요 지표인 ‘LM아레나’에서 미국과 중국의 최고점 AI 모델 간 격차는 3.5% 수준을 유지하고 있다. 지난 2월에는 역대 최저 수준인 1.7%까지 좁혀졌지만 이후 차이가 소폭 벌어졌다. 하지만 이 역시도 작년 초 9%가량 격차와 벌어졌던 것과 비교하면 크게 줄어든 수치다.
차이나 AI의 경쟁력 향상을 이끈 건 딥시크 ‘R1’이다. 당초 일부 전문가들은 딥시크가 지난 5월 R2를 발표할 거란 관측을 내놨지만 실제론 R1 모델의 업데이트 버전인 R1-0528을 선보였다.
알리바바는 지난 4월 말 자체 AI 모델 ‘큐원3(Qwen3)’를 공개했다. 2개의 전문가 모델과 6개의 일반 모델로 나눴다. 파라미터(매개변수)가 6억개에서 2350억개로 다양하다. 하나의 모델 내에서 사고와 비사고 모드를 동시에 지원하는 ‘하이브리드’ 모델을 구축했다. 질문 복잡도에 따라 사고 예산을 조절한다. 이를 통해 추론 정확도와 응답 속도 간 균형감을 맞췄다. 사전 학습에는 토큰이 36조개 활용됐다. 사후 학습에는 지도 미세조정(SFT), 추론 기반 강화학습(RL) 등이 적용됐다.
스타트업 중에는 ‘미니맥스’가 유의미한 성과를 내고 있다. 미니맥스 M1은 최대 100만 입력 토큰과 8만 출력 토큰을 지원한다. 경쟁 모델들보다 8배가량 길다. 긴 문맥에서도 빠르고 정확한 일 처리가 가능하다는 뜻이다. '라이트닝 어텐션'이라는 기술로 연산량도 확 줄였다. 논리, 수학, 엔지니어링, 코딩 등 고성능 추론에 특화됐단 평가를 받는다.
‘콘텐츠 생성 AI’ 영역서 막대한 영향력 발휘
중국이 미국을 절대적 AI 모델 성능 기준으로 뛰어넘긴 쉽지 않은 상황이다. 멀티모달(텍스트·이미지·음성·영상 등 동시 처리) 지원 흐름과 다르게 중국 거대언어모델(LLM)은 말 그대로 언어 모델로만 존재한다는 한계도 상존한다.
그럼에도 콘텐츠 생성 AI 분야에선 미국과 비교해도 전혀 부족하지 않다는 평가를 받는다.
이미지 생성 영역에선 ‘지브리 스타일’ 열풍을 일으킨 오픈AI의 ‘GPT-4o’가 가장 앞서 있다. 하지만 생성 시간과 비용 모두 높은 수준이다. GPT-4o에서 이미지 1개 생성에 소요되는 시간은 평균 40초를 넘는다.
아티피셜 애널리시스는 중국 ‘바이트댄스’의 ‘시드림 3.0’이 근소한 차이로 ‘GPT-4o’를 추격하고 있다고 평가했다. GPT-4o에는 1166점, 시드림 3.0에는 1163점을 줬다. 구글 ‘이미젠 4’, 블랙 포레스트 랩스의 ‘플럭스.1’보다도 앞서는 수준이다. 시드림 3.0에서 1024x1024 해상도 이미지를 생성하는 데 걸리는 시간은 3초에 불과하다.
영상 생성은 중국의 기세가 더욱 강한 분야다. ‘문서→영상(T2V)’ ‘이미지→영상(I2V)’ 생성 분야 모두에서 바이트댄스의 ‘시댄스 1.0’이 1위 자리를 지키고 있다. 미국 모델 중에서는 구글의 ‘비오3’가 분전하고 있지만 점수 격차가 상당하다.
심지어 I2V 점수에서는 미니맥스의 영상 생성 AI 모델 ‘하이루오 02’가 2위를 차지했다. 5월 말 출시된 콰이쇼우 클링(Kling)의 최신 2.1 버전은 아직 등록되지 않았다.
시댄스 1.0은 최대 10초 길이의 풀HD 영상을 프롬프트(명령어) 순서와 장면 전개에 따라 개연성을 강화해 빠르고 정교하게 생성한다. 속도 최적화(Lite)와 품질 최적화(Pro) 등 두 가지 버전을 제공한다. 주 공략층은 짧은 영상(쇼트폼) 제작자다.
하이루오 02는 프롬프트 이해 능력 개선과 물리 시뮬레이션 렌더링(물리 시뮬레이션을 통해 계산된 물체를 화면에 그려내는 과정) 능력을 강조한다. 핵심 아키텍처인 NCR은 동일 파라미터 규모 대비 학습·추론 효율을 2.5배 증가시키는 효과를 낸다. 이전 세대인 하이루오 01과 비교하면 파라미터는 3배, 훈련 데이터는 4배 증가시켰다. 영상 생성 기능을 처음 테스트해보거나 가성비를 중시하는 이용자가 활용하기 적합하다.
클링 2.1의 강점은 최대 2분에 달하는 긴 길이의 영상 생성이다. 음성은 아니지만 효과음 같은 오디오 요소도 자동으로 추가된다. 실사 스타일의 콘텐츠 제작 그룹이 주요 공략층이다.
중국의 영상 생성 AI 산업 발전이 가파른 이유로는 ‘방대한 양질의 데이터’가 꼽힌다. 구글이 유튜브를 활용해 높은 수준의 영상 AI 모델을 만들 수 있었던 것과 같은 맥락이다. 미국 대비 완화된 데이터 이용 규제와 변환 조항도 AI 모델 개발 활용에 유연성을 부여하는 장점 중 하나다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지