체스부터 레이싱 게임까지...인간에게 승리한 인공지능들

소니, 레이싱 게임에서 인간 게이머 뛰어넘는 AI 개발
체스, 바둑, 실시간 전략 게임 등 차례로 인간 격파해온 AI
게임에 적용되면 사용자 재미 높이고, 연관 산업에도 적용 가능

소니가 개발한 인공지능 게이머 그란 투르스모 소피가 레이싱 게임을 정복했다. [사진=소니AI]

게임에서 레벨을 올리고, 더 높은 점수를 얻고, 도전과제를 달성하기 위해 게이머는 여러 가지 방법을 시도한다. 가령 다른 길을 찾아 공략 시간을 줄이는가 하면, 일시적 오류를 이용하는 '글리치'를 통해 기록을 단축하기도 한다. 이러한 경험을 쌓으면서 회차를 반복할 때마다 이전보다 더 높은 성과를 얻는다.

인공지능(AI) 역시 이와 같은 방식으로 게임을 '공부'한다. 정해진 규칙 안에서 다양한 시도를 하며 이전보다 더 나은 결과를 내고, 게임을 점점 마스터해간다. 지도학습을 통해 처음 게임 규칙을 가르치면, AI는 스스로 강화학습을 해 더 높은 목표 달성을 위해 전략을 개선한다.

소니가 개발한 AI '그란 투리스모 소피'는 최근 비디오 레이싱 게임에서 인간을 이겼다. 영국 매체 가디언에 따르면 소피는 지난 10일(현지시간) 비디오 레이싱 게임 '그란 투리스모 스포트(Gran Turismo Sport)' 경기에서 인간 드라이버에 완승했으며, 해당 연구 결과는 영국 과학저널 네이처에도 게재됐다.

레이싱 게임은 미세한 조작과 순간적인 판단력을 요구한다. 주변 차량 운전자에 맞춰 거리를 유지하거나 추월하는 시점을 판단하고, 노면 상태에 따라 차량을 제어하는 기술이 필요하기 때문이다.

관련기사

소니에 따르면 소피는 새로운 학습 알고리즘을 개발하고, AI가 레이스 규칙과 주행 기술을 배우게 했다. 특히 경기 중 사용자 사이에 규정된 규칙과 에티켓을 모두 학습할 수 있는 방법을 개발했으며, 다른 사용자와 경기에서 지나치게 공격적이거나 너무 소극적이지 않도록 조절하는 방법도 갖췄다.

특히 소니는 소니인터랙티브엔터테인먼트의 클라우드 게임 플랫폼에서 AI 학습을 위해 최적화한 웹 기반 머신러닝 연구 개발 플랫폼을 활용했다. 이를 통해 1000대 이상의 플레이스테이션4를 구축하고, 수백 개의 테스트를 동시에 진행했다는 설명이다.

이러한 결과를 바탕으로 지난해 열린 두 번의 '레이스 투게더 2021 챌린지' 이벤트에서 세계 최고의 그란 투리스모 게이머 4명과 경주해 소피의 기능을 테스트했다. 첫 번째 레이스의 결과를 기반으로 AI를 개선하고, 10월 열린 두 번째 경기에서는 타임 트라이얼 레이스(기록경주)와 그란 투리즈모 챔피언십 레이스(경쟁경주) 모두에서 인간 게이머를 능가했다.

보드게임부터 실시간 전략 시뮬레이션까지...AI가 도전해온 게임들

게임에서 AI가 인간에게 도전해온 역사는 아주 길지만, 처음부터 이긴 것은 아니다. 업계에 따르면 최초로 알려진 사례는 1967년 MIT 출신 개발자 리처드 그린블랫이 만든 체스 AI '맥핵'이다. 1967년 1월 열린 아마추어 체스 토너먼트는 AI가 참여한 첫 번째 대회였으며, 승점이 1412점(C급)인 인간과 겨뤄 1무 4패를 기록했다. 이 결과를 바탕으로 맥핵은 미국 체스 연맹 기준 승점 1239점(D급)을 부여받았다.

[사진=게티이미지뱅크]

IBM은 1989년 AI 체스 프로그램을 개발하기 시작해, 1996년 '딥블루'를 개발했다. 딥블루는 당시 체스 세계 챔피언 가리 카스파로프에게 도전했지만 1승 2무 3패로 패배했다. 다음 해 IBM은 기존 딥블루를 개량한 '디퍼블루'로 다시 세계 챔피언에 도전해 승리를 거뒀다. IBM에 따르면 디퍼블루는 매초 2억개의 수를 분석했고, 20수 앞을 예측할 수 있었다. 맥핵이 등장한 지 30년 만에 인간을 뛰어넘는 체스 AI가 탄생한 것이다.

2016년 등장한 바둑 AI '알파고'가 프로 바둑기사 이세돌에게 승리한 사례는 인공지능 연구에 활기를 불어넣었다. 바둑은 그간 AI가 정복하기 어려운 영역으로 알려져 있었다. 바둑판은 가로와 세로로 각각 19줄이 있으며, 처음 돌을 놓을 수 있는 자리는 361개, 두 번째는 360개다. 서로 한 번씩만 돌을 놓더라도 가능한 경우의 수는 약 13만개에 이른다.

알파고는 인간의 뇌를 모사한 인공 신경망과 심층학습(딥러닝)을 통해 성능을 높였다. 구글에 따르면 당시 알파고의 인공 신경망은 크게 수를 생각하는 '정책망'과 승률을 예상하는 '가치망'으로 구성됐다. 구글은 정책망에 약 3000만 가지의 수를 학습시키고, AI가 자신과 대결하며 새로운 전략을 찾도록 했다. 가치망은 정책망을 통한 강화학습 결과를 바탕으로 정책망이 결정한 수의 승률을 예상한다. 이러한 데이터를 처리하기 위해 당시 구글은 1202개의 프로세서와 176개의 그래픽 프로세서를 연결하고, 클라우드에서 분석했다.

2019년 10월, 네이처지에는 구글 딥마인드 연구진이 개발한 스타크래프트2 AI 알파스타가 온라인 경기 플랫폼 배틀넷에서 상위 0.2%에 속하는 '그랜드 마스터' 등급에 올랐다는 논문이 게재됐다.

체스나 바둑은 일정한 규칙과 전략이 있으며, AI가 기존 프로 기사의 기보를 학습하면 상대방이 어떤 전략을 펼치고 있는지 예측할 수 있다. 일명 '수 읽기'다. 하지만 e스포츠 게임은 변수가 많고 다수의 게이머가 동시에 게임에 참여하기 때문에 상대방의 전략을 예측하는 것은 물론, 상대의 허를 찌르는 전략도 필요하다.

특히 알파스타는 실시간으로 펼쳐지는 게임 장면을 데이터가 아닌, 시각적 이미지 분석을 통해 인식했다. 인간이 눈으로 화면을 보면서 상황을 파악하고, 전략을 예측하는 것처럼 알파스타 역시 컴퓨터 비전 기술을 이용해 게임 리플레이 데이터를 학습했다. 딥마인드에 따르면 알파스타는 약 200년간 게임을 한 수준으로 스타크래프트2를 플레이했으며, 특히 병력을 다루는 부분에서 인간보다 더 빠르고 정교한 컨트롤을 선보였다.

몰입도 높은 게임 환경 만들고, 서비스 산업으로도 확대 기대

이러한 AI는 산업적으로 활용 가능성이 크다. 소니는 소피에 쓰인 기술을 활용해 한층 더 현실성 높은 게임을 개발할 계획이다. 단순한 패턴을 반복하는 게임과 비교해, 고도화된 AI가 적용되면 게이머는 같은 게임을 하더라도 매번 새로운 상대와 겨루는 느낌을 낼 수 있다.

뿐만 아니라 소니는 이 기술을 자율주행차 등 산업에도 접목할 계획이다. 복잡한 변수가 발생하는 산업 현장에서, AI를 통한 시뮬레이션은 시설이나 장비 가동 효율을 높이고 더 나은 결과물을 내놓는 등 서비스 산업에서 활용할 수 있다.

실제로 게임업계에서는 AI연구가 활발하다. NHN은 그간 온라인 바둑 게임을 통해 쌓아온 데이터를 바탕으로 바둑 AI '한돌'을 개발했으며, 이러한 기술을 통해 게임 중 사용자에게 수 힌트를 제공하거나 승부 흐름과 패착을 파악하는 서비스를 제공 중이다.

넥슨, 넷마블, 엔씨소프트 등 국내 대표 게임 개발사 역시 AI 개발조직을 운영 중이다. 넥슨은 2017년부터 인텔리전스랩스를 설치·운영 중이며, 넷마블은 2021년 열린 AI 대회 'EMNLP 2021'에서 우승을 차지하기도 했다. 엔씨소프트 역시 AI센터를 운영하며, AI 기반 신규 사업을 추진 중이다.

이러한 기술은 향후 게임 수준을 높이는 것뿐만 아니라 글로벌 게임에서 의사소통 지원, 핵(Hack) 등 부정 프로그램 사용 탐지, 불법 거래 차단 등 다양한 영역에서 쓰일 전망이다.