래블업, GTC서 B200 GPU 500대 소버린 AI 인프라 공개

사진래블업
[사진=래블업]


AI 인프라 전문기업 래블업이 미국에서 열리는 엔비디아 개발자 행사에서 대규모 소버린 인공지능(AI) 학습 인프라 운영 사례를 공개한다고 13일 밝혔다. 

래블업은 오는 16~19일(현지시간) 미국 산호세에서 열리는 NVIDIA GTC 2026에서 엔비디아 그래픽처리장치(GPU) B200 504대를 활용한 소버린 AI 학습 인프라 운영 경험을 발표한다. 소버린 AI는 국가나 기관이 자체적으로 구축·운영하는 AI 인프라를 의미한다.

오는 18일 진행되는 세션에서 래블업은 73일 동안 클러스터를 운영하며 확보한 내결함성 스케줄링 전략과 장애 복구 기술을 소개한다. 전시장에서는 AI 인프라 플랫폼 'Backend.AI Continuum'의 장애 자동 복구 기능과 'Backend.AI:GO'시연도 함께 진행한다. 전시장에서는 관람객이 네트워크 케이블을 분리해 장애 상황을 만들면 해당 플랫폼이 추론 요청을 다른 경로로 자동 전환하는 과정을 실시간으로 확인할 수 있는 체험형 시연도 볼 수 있다.

AI 전용 장비인 NVIDIA DGX Spark에서 구동되는 ‘Backend.AI:GO’도 공개한다. Backend.AI:GO는 노트북이나 데스크톱뿐 아니라 128GB 통합 메모리를 갖춘 DGX Spark 환경에서도 동작하는 로컬 AI 실행 플랫폼이다.


신정규 대표는 "504대의 B200 GPU를 73일 동안 운영하며 대규모 분산 학습 환경에서 발생하는 장애와 복구 과정을 체계화할 수 있었다"며 "이번 GTC에서 해당 경험을 공유하고 국가와 산업이 독자적으로 AI를 운영할 수 있는 소버린 AI 인프라 구축 방향을 제시하겠다"고 말했다.


©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
댓글0
0 / 300

댓글을 삭제 하시겠습니까?

닫기

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기