[클라우드 게임체인저] 슈퍼컴퓨터 선두권 노리는 MS애저

슈퍼컴퓨터 톱500 목록 58번째 공개
MS애저 시스템이 '10위 슈퍼컴' 등재
AWS보다 '슈퍼컴 분야 우위' 나타내
AI용 고성능 GPU서버 마케팅에 활용
초거대AI 원조 오픈AI와 협력 가속도

[사진=게티이미지뱅크]

마이크로소프트(MS)가 클라우드 기술을 바탕으로 자체적인 슈퍼컴퓨터 경쟁력을 끌어올리고 있다. 세계 클라우드 시장 2위의 입지를 살린 고성능컴퓨팅(HPC) 분야의 역량으로 클라우드 기반 슈퍼컴퓨터 시장에서도 선두에 나설 기세다. 일반적으로 슈퍼컴퓨터는 독립적인 하드웨어로 구축된 HPC 시스템을 지칭하는 것으로 인식되지만, MS는 '애저(Azure)' 클라우드 기반의 고성능 슈퍼컴퓨터를 선보임으로써 이 분야에서도 클라우드 중심의 지형 변화를 예고했다.

최근 각국 슈퍼컴퓨터 분야의 기술경쟁 지형을 보여 주는 '톱500(top500)' 리스트가 58번째로 공개됐다. 1993년부터 인터넷으로 공개되고 있는 이 리스트는 세계적으로 성능이 뛰어난 슈퍼컴퓨터 500대의 순위를 담아 매년 상반기와 하반기마다 갱신된다. 상반기 목록은 매년 6월 독일의 '국제슈퍼컴퓨터콘퍼런스(ISC)'에서 발표되고, 하반기 목록은 매년 11월 미국에서 열리는 '컴퓨터학회(ACM)/국제전기전자기술자협회(IEEE) 슈퍼컴퓨팅(SC) 콘퍼런스'를 통해 발표된다.

MS 애저 클라우드 기반으로 구축된 '보이저-EUS2(Voyager-EUS2)'라는 이름의 슈퍼컴퓨터가 2021년 11월 톱500 리스트 10위에 등재됐다. 보이저-EUS2는 2.45㎓ 클럭 주파수로 작동하는 48코어 AMD 에픽(EPYC) 프로세서, 80GB의 메모리를 탑재한 엔비디아 A100 그래픽처리장치(GPU), 멜라녹스 HDR 인피니밴드 인터커넥션 네트워크 장비를 활용했다. 보이저-EUS2라는 이름의 'EUS2'는 MS 애저 클라우드 데이터센터 가운데 미국 동부 제2리전(Azure East US 2)의 인프라에 구축돼 있음을 의미한다.

MS가 자사의 클라우드 인프라를 활용해 구축한 슈퍼컴퓨터를 톱500 리스트에 등재시킨 것은 처음이 아니다. 지난 6월 발표된 올해 상반기 톱500 리스트에서도, 총 네 대의 MS 애저 클라우드 기반 슈퍼컴퓨터가 26~29위에 올랐다. 이 네 대의 슈퍼컴퓨터는 MS가 애저 클라우드의 리전 네 곳에서 각각 제공되는 엔비디아 A100 GPU v4 인프라를 활용한 것으로 '고성능 린팩(HPL) 벤치마크 패키지'라고 불리는 슈퍼컴퓨터용 성능평가의 수행결과 30.05페타플롭스(PFLOPS)를 기록했다.

관련기사

이번 하반기 톱500 리스트 상단에 새로운 고성능 슈퍼컴퓨터가 추가되면서 30위권에 있던 MS 애저 클라우드 기반 슈퍼컴퓨터 네 대의 순위는 32~35위로 밀려났다. 하지만 이들의 순위를 밀어낸 슈퍼컴퓨터 여섯 대 중 한 대가 이번에 MS에서 선보인 보이저-EUS2였고, 이는 톱500 리스트 상위 10대의 슈퍼컴퓨터 가운데 유일한 클라우드 기반 슈퍼컴퓨터이기도 했다. 세계적으로 공인된 500대의 슈퍼컴퓨터 목록 중 상위 40위권 다섯 대의 시스템이 MS 클라우드 기반으로 구축된 것이다.

톱500 리스트의 상위 10대 슈퍼컴퓨터. [자료=톱500 (2021년 11월)]

이로써 MS는 톱500 리스트에 등재된 전체 슈퍼컴퓨터 공급사(vendor) 가운데 1%의 비중에 해당하는 5대를 등재시켜 가장 많은 시스템을 선보인 클라우드서비스 제공자가 됐다. 세계 클라우드서비스 인프라 시장에서 앞서고 있는 아마존웹서비스(AWS)도 톱500 리스트에 1대의 시스템을 등재시켰지만, 시스템 공급사로서의 비중이나 각 시스템의 성능 면에서 MS에 밀린 셈이 됐다. 클라우드 시장에서 둘을 추격하는 IBM이 이번에 등재시킨 슈퍼컴퓨터는 비중, 성능으로 MS를 앞섰지만, 클라우드 기반이 아니다.

지난 15일 셰리 왕(Sherry Wang) MS 애저 HPC·인공지능(AI) 담당 수석프로그램매니저는 회사의 애저 클라우드 공식 블로그를 통해 "톱500 슈퍼컴퓨터 목록에서 네 개의 시스템을 등재시킨 애저 기반 최신 80GB 엔비디아 A100 GPU를 정식 서비스함으로써 AI 슈퍼컴퓨터 라인업을 확장했다"고 강조했다. MS는 보이저-EUS2의 톱500 리스트 10위 등재를 비롯한 자사 클라우드 기반 슈퍼컴퓨터 시스템의 활약을 애저 클라우드에서 제공되는 엔비디아 A100 v4 탑재 가상머신 서버 마케팅에 활용하는 것이다.

MS가 공인된 성능을 인정받은 자사의 슈퍼컴퓨터를 구축하기 위해 사용한 고성능 GPU를 애저 클라우드로 제공한다고 강조하는 이유는, 이 서비스가 머신러닝 기술을 활용해 AI 모델을 구축하고 AI 응용 제품과 서비스를 개발하려는 일반 기업과 개발자들에게 유용한 HPC 자원이라는 점을 부각하기 위해서다. 뛰어난 AI 제품과 서비스를 제공하려면 데이터를 효율적으로 학습하고 추론할 수 있는 HPC 시스템이 필요한데, 이를 클라우드로 제공한다면 사업자는 많은 초기 비용을 절감할 수 있기 때문이다.

수년간 MS는 애저 클라우드 기반으로 HPC와 AI 기술을 제공하는 선두 기업 역할을 강화하는 데 주력해 왔다. 지난 2016년 연례 기술 발표회인 '이그나이트(Ignite)'에서 모든 애저 서버가 프로그래머블반도체(FPGA) 칩을 AI 가속장치로 사용해 MS의 여러 AI 관련 서비스 성능과 효율을 높이고 있다고 밝혔고, 이로써 자사가 '세계 첫 클라우드 기반 AI 슈퍼컴퓨터'를 운용한다고 주장했다. 작년 5월 개발자 콘퍼런스 '빌드(Build)'에선 '오픈AI'와 협력해 세계 5위권의 슈퍼컴퓨터에 필적한 시스템을 만들었다고 선언했다.

오픈AI는 2015년 12월 설립된 미국 민간연구소다. 오픈AI의 출범 초기 후원자 명단에 클라우드 기업 AWS와 일론 머스크 테슬라 설립자·최고경영자(CEO) 등이 이름을 올려 주목받았다. 오픈AI는 2018년까지 주요 연구성과를 무상으로 외부에 제공해 왔다. 하지만 수년 전부터 자금난의 징후를 보이면서 2019년부터 제한적인 수익활동이 가능한 영리법인을 별도 설립하는 등 운영방식이 약간 바뀌었다. MS는 작년 7월 오픈AI에 10억 달러를 투자하고 'GPT-3'를 독점 라이선스하면서 AI 분야 협력을 확장하고 있다.

오픈AI의 GPT-3는 네이버와 카카오, SKT와 LG 등이 개발에 뛰어든 '초거대 AI 모델'의 원조격인 언어모델이다. GPT-3는 영어 위키피디아 백과사전과 일반 웹페이지, 뉴스 등으로 공개된 데이터를 광범위하게 사전학습한 모델로, 별도의 '미세조정' 작업을 하지 않고도 그럴듯한 문장 번역, 작문, 텍스트 요약, 사진 묘사, 이미지 스타일 변환, 코드 자동 생성 등의 결과물을 보여줌으로써 학계와 산업계의 주목을 받았다. 전문가들은 GPT-3와 같은 초거대 AI 모델이 사람의 창의성을 보조하는 데 유용할 것으로 본다.