[뉴스플러스] 저전력·추론 집중...삼성 '마하-1', 엔비디아와 무엇이 다를까

자체 개발 AI칩 내년 양산...전력 소모 8분의 1로 줄여
성능은 HBM AI 반도체와 대등, 경량화 기술로 차별화
대량 양산 가능성 커, 외부 판매 계획도

경계현 삼성전자 사장(DS부문장)이 인공지능(AI) 반도체 '마하-1'을 자체 개발하고 있다고 공개했다. 마하-1은 급성장하는 추론(실행)용 AI 반도체 시장을 공략하기 위해 삼성전자가 네이버와 협력해 만드는 칩이다. 두 회사는 저전력·추론을 강조하며 고전력·학습 중심인 기존 AI 반도체 시장 판을 흔들겠다는 포부를 드러냈다.

21일 반도체 업계에 따르면 경 사장은 전날 삼성전자 주주총회에서 "메모리 등 기존 사업만으로는 장기적으로 1등을 유지하기 어렵다"며 "AI 반도체 마하-1을 개발하고 있다"고 말했다.

삼성전자가 네이버와 협력해 AI 반도체를 만든다는 사실은 2022년 양사 업무협약 이후 널리 알려졌으나 실제 제품 이름이 공개된 것은 처음이다. 삼성전자 반도체 사업을 이끄는 경 사장이 직접 마하-1을 언급한 것을 두고 기존에는 상무급 임원이 이끌던 AI 반도체 사업을 전사 차원의 핵심 프로젝트로 격상했다는 시각도 있다.

삼성전자와 네이버는 마하-1 개발에 반도체 엔지니어 40여 명을 투입했다. 지난해 말 FPGA(프로그래밍이 가능한 비메모리 반도체)를 활용해 마하-1 설계 효율성을 검증했고 현재 양산을 위한 반도체 설계 확정을 앞두고 있다.

관련기사

경 사장은 "저전력 메모리(LPDDR)로도 초거대언어모델(LLM) 추론이 가능하도록 마하-1을 준비 중"이라며 "내년 초면 저희 칩으로 만든 AI 시스템을 볼 수 있을 것"이라고 말했다. 반도체 업계에선 삼성전자가 올해 말 마하-1을 출시해서 내년 초부터 본격 양산할 것으로 본다.

마하-1은 HBM(고대역메모리)을 탑재한 엔비디아 AI 반도체(데이터센터 GPU)와 달리 저전력 메모리를 탑재하며 전력 소모를 줄이는 데 집중한 게 특징이다. 엔비디아를 포함해 대다수 기업의 AI 반도체는 성능 향상에 집중한 나머지 전력 소모(TDP)가 기하급수로 늘어나는 문제가 있다. 일례로 엔비디아 AI 반도체는 2020년 출시한 암페어(A100)의 전력 소모가 대당 400W(와트)였으나 2022년 출시한 호퍼(H100)는 대당 700W에 달한다. 올해 말 출시하는 블랙웰(B100)은 대당 1000W에 달하는 것으로 알려졌다.

이러한 AI 반도체 전력 소모는 AI 학습·운영비 증가로 이어지며 기업과 정부 기관이 AI를 실무에 도입하는 데 걸림돌로 작용하고 있다.

삼성전자는 이점에 착안해서 저전력 메모리를 탑재한 마하-1으로 기업 AI 운영비 절감에 집중할 계획이다. 회사 측 자체 벤치마크에 따르면 매개변수(파라미터) 300억개(30B) 내외인 중형 LLM을 추론할 때 AI 모델 성능을 유지하면서 전력 소모를 (기존 AI 반도체 대비) 8분의 1 수준으로 줄일 수 있었다. 마하-1에 탑재할 D램은 'LPDDR5X(7세대 저전력 메모리)'로 알려졌지만 올 하반기 성능이 더 우수한 'LPDDR6(8세대 저전력 메모리)' 양산을 앞둔 만큼 교체될 가능성도 있다.

마하-1 개발 핵심 관계자는 "HBM이 성능·전력효율 면에서 우수한 D램임은 틀림없지만 공정이 복잡해 대량생산이 어렵고 LPDDR 대비 가격이 비싸고 전력 소모가 심하다"며 "(삼성전자는) 대량생산·저전력에 초점을 두고 LPDDR을 채택했다"고 설명했다.

삼성전자 마하-1 성능 검증을 위한 테스트 보드 사진강일용 기자 — 삼성전자 마하-1 성능 검증을 위한 테스트 보드. [사진=강일용 기자]

전력 소모가 아무리 적어도 성능이 뒷받침되지 않으면 '말짱 도루묵'이다. 마하-1은 매개변수 330억개인 중형 LLM을 단일 칩으로 추론한다. 현재 최고 성능의 AI 반도체라고 평가받는 엔비디아 H100이 33B LLM을 추론하려면 칩 2대가 필요한 점을 고려하면 성능 면에서도 큰 강점이 있는 것이다.

이러한 성과를 거둔 배경에는 AI 모델 양자화를 적극 활용한 경량화 구조 신기술이 있다. 관계자는 "경량화 기술 덕분에 마하-1은 HBM을 쓸 때와 동일하거나 그 이상의 LLM 추론 성능을 확보했다"고 자신했다.

설명에 따르면 원래 LPDDR5X의 데이터 전송 속도는 HBM 대비 4분의 1도 안 되지만 마하-1은 삼성전자와 네이버가 공동 개발한 최적화 기술을 활용해 HBM에 버금가는 속도로 코어와 D램이 데이터를 주고받는다. 경 사장도 전날 "마하-1은 여러 알고리즘(경량화)을 활용해 GPU(코어)와 메모리(D램) 사이 데이터 병목(보틀넥)현상을 8분의 1가량 줄였다"고 말했다. 데이터 병목현상이란 코어와 D램 사이 데이터 통로(I/O)가 좁아 이용자가 요청한 일을 AI가 제때 처리하지 못하는 것을 말한다.

삼성전자는 마하-1에 128GB D램을 탑재할 계획이다. 80GB를 탑재한 H100은 물론 시중에 나와 있는 추론용 AI 반도체보다 용량이 압도적으로 크다. 최적화와 함께 넉넉한 D램 용량이 마하-1의 핵심 경쟁력으로 떠오를 전망이다.

삼성전자는 마하-1을 공동 개발한 네이버뿐 아니라 외부 기업에 판매하는 방안도 검토 중이다. 마하-1 관계자는 "마하-1은 대량생산되는 LPDDR D램을 채택함으로써 AI 반도체 수요 증가에도 효과적으로 대처할 수 있다"고 말했다. HBM 공급 물량이 부족해 제때 AI 반도체를 공급하지 못하는 타 AI 반도체 기업들과는 다를 것이란 자신감의 표현이다.

마하-1은 삼성전자 파운드리에서 양산하며 시스템 반도체 사업부 실적 개선에도 힘을 보탤 것으로 기대된다. 다만 몇 나노미터(㎚) 공정에서 양산할지는 미정이다. 삼성전자 파운드리 여력에 맞춰 4~5㎚ 가운데 한 곳으로 정해질 것으로 전망된다.