"초거대 AI 모델 연구 주제 '성능 지상주의'에서 '효율화·자동화'로 옮겨간다"

[사진=게티이미지뱅크]

딥마인드를 인수한 구글의 ‘멈(MUM)’이나 ‘팜(PaLM)’, 마이크로소프트와 손잡은 오픈AI의 ‘GPT-3’나 ‘챗GPT’는 파라미터 수천억 개를 다루는 모델 훈련 소요시간을 단축하기 위해 엄청난 연산(computing) 자원을 끌어 썼다. 이처럼 글로벌 빅테크 기업 간 경쟁이 치열한 초거대 인공지능(AI) 모델 개발 분야에서 연산 기술 관련 연구의 무게 중심이 이동할 것이란 관측이 나왔다. 2020년 이전까지 주된 연구 주제가 모델 개발에 필요한 연산 인프라에서 막대한 성능 총량을 달성하는 것이었다면, 최근 추세를 볼 때 주어진 하드웨어 자원으로 병렬 처리 시 더 나은 성능을 얻기 위한 효율성과 운영·관리 자동화 방안이 더 주목받을 것이라는 전망이다.

18일 국내 연구계에 따르면 한국전자통신연구원(ETRI) 연구자들은 정보통신기획평가원(IITP)의 주간기술동향 보고서에 ‘거대 모델 병렬 학습을 위한 고효율 AI 컴퓨팅 기술 동향’ 연구 논문을 게재했다. 이 논문은 국가 ICT 연구개발(R&D) 기획·평가·관리 업무를 전담하는 과학기술정보통신부 산하기관인 IITP의 지원으로 수행한 연구성과를 정리한 것으로, 정부 기관의 공식 의견이 아닌 연구자의 주관적인 견해를 담고 있다. ETRI 연구자들은 이 논문에서 대규모 모델 학습(훈련)용 하드웨어 기술 동향과 모델 연산을 처리하는 병렬화 기술 등장 흐름을 짚고 병렬화의 고난도 과제를 해결하기 위한 자동 병렬화 기술이 나오고 있다는 점에 주목했다.

ETRI 연구자들은 “현재 AI 모델은 1조개 이상 파라미터를 포함할 정도로 초거대 규모로 대형화하고 있지만 하드웨어 성능 발전 속도는 모델 규모의 성장 속도보다 턱없이 느린 상황으로 그 격차 또한 지속해서 증가”한다고 봤다. 이는 데이터 내 관계를 추적해 그 맥락과 의미를 학습하는 ‘트랜스포머’ 신경망 기반 모델이 단순한 구조와 규모와 비례한 성능을 보장하는 특성 때문에 2017년 처음 등장한 이래 AI 모델 대형화 추세를 가속한 결과다. 딥러닝 기법에 필요한 연산량이 18개월마다 10배, 메모리 사용량이 2년마다 35배씩 늘고 있다. 학습 단계에 필요한 연산 성능과 메모리 사용량이 단일 장치 범위를 한참 벗어났고 이는 “필연적으로 다수 연산장치를 이용해 병렬로 학습하는 기술 발전으로 이어졌다”고 연구자들은 지적했다.

또 연구자들은 “과거 두 번의 겨울을 거친 인공지능 기술은 딥러닝 기술의 등장과 하드웨어 성능의 비약적인 발전에 힘입어 그 꽃을 피우게 됐고, 현재도 인류의 예상을 뛰어넘는 수준의 속도로 발전하고 있다”며 “지금은 AI 기술 발전의 일등 공신이었던 하드웨어 성능이 AI 모델의 급격한 대형화 추세를 따라잡지 못해 걸림돌이 되어버린 상황으로, 이를 해결하기 위한 AI 학습 병렬화 기술이 등장해 주목을 받고 있다”고 설명했다.

관련기사

우선 모델 규모가 급격히 커지면서 다수 서버를 연결한 클러스터 형태의 AI 하드웨어 플랫폼이 도입됐다. GPU 제조사 엔비디아는 고속 통신용 상호연결 기술 ‘NV링크’와 4세대 ‘텐서 코어’, 트랜스포머 알고리즘 처리 효율을 높이는 ‘트랜스포머 엔진’을 탑재한 GPU 제품 H100과 이를 탑재한 x86 서버를 여러 대 연결한 ‘DGX’ 제품군으로 초거대 AI 모델 학습을 지원한다. 구글은 AI 연산 가속 프로세서 ‘텐서처리장치(TPU)’를 업그레이드해 2021년부터 제공하는 TPU v4 칩을 ‘3D Torus’ 토폴로지로 4096개 상호연결한 TPU v4 포드(Pod) 하나로 최대 연산 성능 1.1엑사플롭스(bf16 또는 int8 기준)를 구현했다. 그래프코어는 딥러닝 AI 연산 가속 프로세서 ‘지능처리장치(IPU)’를 제작해 왔고 2022년 발표한 3세대 제품 Bow 칩을 4개 포함한 1U 규격 서버 Bow-2000 한 대로 1.4페타플롭스 성능을 내며 이를 여러 대 연결한 시스템을 구축해 성능을 확장할 수 있다.

[사진=게티이미지뱅크]

이후 서버 간 통신 부하를 최소화하면서 모델을 병렬 학습하는 효율화 기술이 주목받고 있다. 앞서 AI 모델 연산을 처리하는 각 장치에 동일 모델 사본을 두고 입력 데이터를 나눠 모델 학습을 병렬 수행하는 ‘데이터 병렬화’ 기법이 도입됐고 그중 입력 데이터를 병렬 처리 후 연산장치 간 상호통신해 모델을 동기화하는 링-올리듀스(Ring-AllReduce)’ 기법을 텐서플로 프레임워크에 구현한 ‘Horovod’ 라이브러리가 사실상 표준으로 쓰인다. 이후 장치 내부 메모리보다 큰 AI 모델을 학습하지 못하는 데이터 병렬화 기법 한계를 극복하기 위해 ‘파이프라인 병렬화’ 기법이 등장했는데, 이는 모델 각 계층을 여러 장치에 분할 저장하고 입력 데이터도 분할해 동시에 연산을 수행하는 기법이다. 이때 유휴 자원을 줄이기 위해 ‘1F1B’ 외에 ‘weight stashing’, ‘OOO backprop’ 등 여러 스케줄링 전략으로 파이프라인 병렬화 모델 학습 효율성을 높일 수 있다.

대형 AI 모델 학습을 위해 ‘모델 병렬화’ 작업을 지원하는 프레임워크도 나왔다. AI 모델 계층 자체를 여러 장치에 분할 저장 학습하는 ‘텐서 병렬화’ 기법이 제안됐고, 인공신경망의 은닉계층을 대상으로 텐서 병렬화를 적용한 ‘메시-텐서플로’가 이를 최초로 딥러닝 모델에 적용한 사례였다. 초거대 AI 모델 흐름을 이끈 트랜스포머 알고리즘 기반 모델에 텐서 병렬화를 구현한 사례로 엔비디아의 ‘메가트론(Megatron)-LM’이 꼽히는데, 새로 학습하기 위해 모델을 직접 수정해야 하는 노력이 많이 드는 단점이 있다. 파이토치용 프레임워크인 마이크로소프트의 ‘바루나(Varuna)’는 파이토치용 프레임워크로 사용자가 학습 모델에 파이프라인 병렬화 지점을 알려주면 특정한 지점만 활성화해 모델 계층을 나누는데, 범용 하드웨어 환경에 텐서 병렬화보다 저렴한 네트워크 비용으로 파이프라인 병렬화를 구현할 수 있지만 사용자가 모델 코드를 수정해야 하는 부담이 남았다.

기존 프레임워크는 동일 계층이 반복되는 모델에만 병렬화를 지원했고 조건문이 포함된 모델 병렬화가 불가능했다. ‘아마존 세이지메이커(Amazon SageMaker)’는 지원 모델 형상에 대한 유연성을 높이고 모델의 분할 영역 간 통신 횟수를 줄인 최적화 알고리즘을 적용해 모델 병렬화 기능을 일반화했다. 마이크로소프트 ‘딥스피드(DeepSpeed)’는 GPU뿐 아니라 CPU와 NVMe 자원을 함께 사용해 기존 데이터 병렬화 기법 대비 메모리 소비량을 극적으로 절감한 최적화 기능으로 수조 개 파라미터 규모 학습을 가능하게 만들었다. 국산 프레임워크 ‘오슬로(OSLO)’는 허깅 페이스 모델에 텐서 병렬화와 파이프라인 병렬화를 쉽게 지원하는 기술로 꼽혔다.

ETRI 연구자들은 “사용자가 직접 (모델) 병렬화를 하기 위해서는 높은 확률로 모델에 대한 도메인 지식을 갖춰야 한다”면서 “기존 모델을 자동으로 병렬화하는 기법에 관한 연구가 주목받고 있다”고 했다. 한 사례로 모델 개발자가 전체 모델의 핵심 텐서에 대한 코드 몇 줄을 추가해 자동 병렬화를 수행할 수 있는 구글의 ‘GSPMD’가 있다. 이는 모델 개발자에게 데이터, 파이프라인, 텐서 병렬화 기능을 모두 제공해 개발자가 대규모 연산 성능과 메모리를 갖춘 단일 가속 장치만 있다고 가정하고 AI 모델을 만들 수 있게 한다. UC버클리 연구진이 개발한 ‘알파(Alpa)’는 주어진 하드웨어 성능에 맞게 대규모 AI 모델을 자동 병렬화하는 기술이다. 이를 구현한 JAX 라이브러리와 XLA 컴파일러가 오픈소스로 공개돼 있다. 논문에선 알파가 널리 쓰이는 주요 AI 모델에 기존 대비 우월한 성능을 검증했고 하드웨어 증설에 따른 확장성도 확인했다고 평했다.

ETRI 연구자들은 “AI 기술 역시 다른 기존 기술들과 유사하게 기능 개선→절대 성능 개선→효율 개선→자동화의 진화 사이클을 보여주고 있다”며 “지금까지 AI 연구 주제가 기능과 절대 성능에 초점이 맞춰졌다면 지금부터는 연구의 중심이 효율 개선과 자동화 관련 기술 쪽으로 옮겨갈 것으로 예상한다”고 했다. 또 “거대 규모 AI 모델의 효율적인 병렬 학습을 사람의 수작업에 의존하지 않고 자동화하는 기술의 발전은, AI 기술이 인류의 삶 속에 더욱 깊이 확산하고 보편화돼 고수준의 신기술 체험을 가능하게 하는 근간이 될 것”이라고 기대했다.

임민철 기자imc@ajunews.com

기자의 다른기사