[문송천의 디지털 산책] 데이터 0.001%의 함정 …'확률 기계' AI는 진실을 모른다

AI를 통한 인류 혁신, 그 가능성의 경계

인공지능(AI)은 우리 일상과 산업 전반에 스며들어 오고 있다. 사회 여러 분야에서 혁신이라는 이름으로 AI는 인간의 수작업 영역을 지동화하고 있다. 어떤 이는 산업혁명 이후 가장 거대한 문명사적 전환으로 평가한다. 아폴로 11호 달 착륙에 이은 제3의 창세기에 비견하는 이도 있다. 그러나 관심이 클수록 질문은 더 냉정해야 한다.

AI는 과연 혁신의 본질인가, 아니면 기존 기술 체계 위에 세워진 하나의 첨탑에 불과한가. 우리는 어디까지를 혁신 가능성 영역으로 봐야 합리적일까. 컴퓨터 기술의 본질을 들여다보면 이에 대한 답의 실마리가 보인다. 컴퓨터 생태계는 흔히 양파 구조에 비유된다. 이는 기계공학을 비롯한 다른 분야에서는 찾아보기 힘든 컴퓨터 분야만 갖고 있는 고유한 특징이다. 맨밑에 하드웨어가 있다. 메모리 반도체와 계산 반도체, 이 둘이 하드웨어를 이룬다. 그 위에 소프트웨어(SW)인 운영체제(OS)가 자리한다. OS는 하드웨어를 지휘 통제하는 육법전서다. 이는 메모리 반도체와 계산 반도체 각각의 활용도를 최대화하기 위해 작업처리 병렬화에 능하며 OS 자신 상단에 위치할 각종 소프트웨어를 연결시키는 역할을 담당한다. 그래서 컴퓨터의 엔진으로 일컬어진다. OS 위에 또 다른 SW인 데이터베이스(DB)가 존재한다. OS가 데이터를 파일 단위로 처리하는 반면 DB는 그보다 작은 테이블 단위로 섬세하게 처리한다. 그 위로 각종 응용 SW가 다층 구조로 얹히고 그 최상층 옥상에 AI가 얹힌다. 따라서 AI는 이런 OS와 DB라는 SW엔진이 받쳐주지 않으면 단독으론 작동 불가능하다.

AI도 SW다. 그래서 SW는 기초와 응용이 어우러지는 팀 플레이적 특징을 지닌다. 즉 기초 엔진이 없으면 AI는 아무리 화려해 보여도 사상누각에 지나지 않는 것이다. 따라서 기초 엔진 기술을 빼고 AI 중요성만을 외치는 일은 건축에서 지하층을 비워둔 채 고층 빌딩의 꼭대기부터 짓겠다는 공상에 지나지 않는다. 컴퓨터의 또 다른 두 엔진(OS와 DB 바로 상층)은 인터넷과 인터넷 기반의 클라우드다. 클라우드라고 하면 일반인들은 슈퍼컴퓨터가 자리 잡은 저장공간으로 연상하는데 그 본질은 그게 아니라 단일 컴퓨터용 OS가 아닌 인터넷판 거대 OS라고 보면 된다. 다시 말하면 OS, DB, 인터넷, 클라우드 등 네 가지 하부 구조 중 어느 하나만 빠져도 AI는 돌아가질 못한다. 업데이트도 전혀 못하고 학습할 데이터도, 검색할 길도 전혀 없으며 결과적으로 학습할 방법을 잃어버린다.

오늘날 생성형 AI가 전성기를 맞이하고 있으나 그 폭발적 성장은 GPU 성능이나 알고리즘의 진보만으로 설명되지 않는다. 무엇보다 대량의 데이터를 학습했기에 가능했던 일이다. 무려 10년간(지난해로 오픈AI가 창업 10주년을 맞이함)에 걸쳐 진행된 일로, 데이터 학습에 개도국 인력을 제국주의적으로 착취한 비도덕적 행태가 최근 고발된 일도 있다(로이터 2025년 7월 3일자). 게임에 비유하면 AI란 게임 구성원의 하나로서 5인 6각 경기를 펼친 것으로 복합 기술의 결정체다. AI 단독 드리블의 결과가 아니다. 이렇듯 하부 구조가 최적으로 주어진 상태에서만 AI가 정상 작동 가능한데 실제로 어떻게 작동하는지 한번 알아보자.

관련기사

'열려라 13자리' …마스터키의 덫

GPT와 같은 대규모 언어 모델은 세상의 텍스트를 학습한 뒤 주어진 문맥에서 다음에 올 단어를 확률적으로 예측한다. 이는 본질적으로 끝말잇기의 고도화 버전이다. 그런데 이 끝말잇기는 인간이 가르쳐 준 것이 아니라 기계가 자발적으로 수많은 시행착오 과정을 거쳐 찾아낸 결과다. 이 자발적 중간계(마치 반지의 제왕 영화 속에서처럼) 과정이 AI의 백미로서 인간(사용자)에게는 철저히 블랙박스다. 이 과정은 기계 단독으로 철저히 비밀리에 수행되는 관계로 인간은 세부 내용을 전혀 예측할 수도 없다. 이렇듯 기계 스스로 정답을 찾아가는 과정 속에서 정답이라는 값과 기계 자신이 예측한 값 사이의 간극을 좁히도록 하는 수치가 계산되는데 이를 보정용 매개변수(파라미터)라고 부른다. 한 문제를 푸는데 때로는 수십억 개에 달할 정도로 많은 매개변수가 사용되기도 한다. 정답에 가까운 방향으로 자발적으로 끊임없이 오차를 미세하게 역추적하여 간극을 좁히도록 조율해 나가는 과정의 핵심인 T, 즉 트랜스포머라고 불리는 것이다.

딥러닝은 다층(밑으로 깊숙이) 학습 과정을 지칭하는 말로 인간의 뇌가 사물을 인식할 때 여러 층을 통과하듯이 중간계 여러 층을 통과하며 사물(혹은 문장)의 다음 패턴을 추출해내는 일련의 여정이다. 마치 거대한 원석을 차츰차츰 수백 번(수백 층) 다듬어 조각상을 만들어내듯 결과를 형상화한다. 이런 블랙박스적 여정은 인간이 오차를 줄여 나가는 보정방법만 초기 조건으로 주기만 하면 그다음부터는 오차 보정 과정 자체를 기계 스스로 직접 설계하며 학습한다고 해서 머신러닝이라고 불리는 것이다. 그런데 이 과정은 처음부터 정답을 구하는 마지막까지 확률 기반으로 이루어진다. 많은 불확실성을 내재할 수밖에 없는 이유다. 바로 여기가 환각 문제가 등장하는 지점이다. AI는 단순히 가장 그럴듯한 문장을 확률적으로 찾아 끝말 자동 잇기 식으로 생성하는 존재다. 말하자면 ‘밤 하늘의’ 다음에는 ‘별’이 오듯 맞추는 기계다. 통계적으로 개연성이 높은 표현을 선택할 뿐 그것의 진실 여부를 스스로 판단하지는 못한다. AI에는 사실을 확인하는 기능이 없기 때문이다. 따라서 끝말잇기 정보가 불분명할 때는 AI는 사람인 양 나름대로 그럴듯한 단어를 어떤 식으로든 신속히 동원해 답을 준다. 그런데 사람이 보기에는 엉뚱한 허구로 드러날 가능성도 있는데 바로 이럴 때 환각 현상이 발생했다고 부르는 것이다. 문제는 어떤 이에게는 틀린 건 분명한데도 다른 누구에게는 그 문장이 지나치게 자연스럽고 설득력 있게 받아들여질 가능성도 있다는 점이다. 오답임에도 진실로 둔갑할 수 있는 것이다.

확률 기반 처리 외에도 AI가 환각을 피할 수 없는 또 다른 이유가 있다. 현재 디지털 공간에 축적된 데이터의 상당 부분은 부정확하거나 불필요하게 중복되어 있다. 데이터를 애초에 설계할 때 설계 이론에 따라 적법하게 중복시킨 것, 즉 불가피한 중복에 대해서는 시스템이 알아서 원본 데이터와 사본 데이터 간의 값이 항상 일치하도록 값 정확성을 보장해주지만 부적법하게 일종의 불법으로 중복시킨 것에 대해서는 시스템은 아무 조치를 하지 않는다. 이런 중복이 문제가 되는 이유는 다수 중복 사본 간에 서로 다른 값이 들어있을 수 있기 때문이다. 즉 어디는 지난달 값이, 또 어디는 지난주 값이, 그리고 또 어디는 현재 값(이것이 정확한 값)이 들어 있을 수 있단 뜻이다. 그리되면 최신 값과는 다른 과거 값이 검색되어 사용자에게 제공되기도 하는데 이것 역시 오류(환각)에 해당하는 경우다. 데이터 값의 정확성이 흔들리면 그 흔들린 만큼 AI 결과 역시 흔들릴 수밖에 없다. 그러므로 데이터 값 관점의 데이터 품질이 AI 정확도의 결정적 변수라는 점이 분명해지는 것이다. 흔히 AI 경쟁을 모델 크기 경쟁이나 연산 속도 경쟁으로 이해하는 경향이 짙다. 그러나 진정한 경쟁은 데이터 품질 경쟁이라는 점을 이제는 이해할 수 있을 것이다. 얼마나 정확하고 정제되어 있으며, 맥락이 살아 있는 데이터를 AI 모델이 확보하고 있는지가 핵심이다. 그러나 AI에는 이런 정제 기능 자체가 없다. AI 시대에도 정제는 사람 몫이다. 만일 정제해주지 않으면 AI는 편향의 증폭기가 될 수 있다. 따라서 어느 조직이든 데이터 정제사(감별사)가 필요하다. 이는 데이터 분석가 이전의 개념이다. 데이터의 품질을 관리할 수 있는 전문 인력이다. AI는 스스로 데이터 값의 진위를 판별하지 못하기 때문이다.

AI는 데이터를 먹고사는 생명체다. 결국 AI의 미래는 데이터를 어떻게 선별하고 관리하느냐에 달려 있다는 뜻이다. 전 세계 데이터를 방대하게 학습했다고는 하지만 실제로 AI 학습에 지금까지 활용된 데이터 양은 전 세계 데이터의 극히 일부다. 정확히 밝히면 세상 데이터의 0.001%에 불과할 따름이다. 왜 그런가. 나머지 99.999%의 데이터는 대외비로 분류되어 있어 AI는 거기에 접근하지 못한다. AI가 학습한 한정된 데이터 자체에도 왜곡이 존재한다. 그러니 AI의 판단 또한 왜곡될 수밖에 없는 것은 당연한 귀결이다. AI 전문가들은 데이터 품질보다는 오로지 확률에만 관심을 쏟는다. 그들이 세상의 데이터가 거의 다 정확할 것이라는 전제하에서 인류 미래를 예견하다 보니 다소 과장되게 포장할 수밖에 없는 것이다. 심지어 인간 멸종을 이야기하는 AI 전문가도 많은 건 이미 알려진 사실이다. 하지만 알아야 할 중대한 사실은 AI 전문가와 데이터 전문가는 서로 딴 세계에서 동떨어져 살고 있다는 점이다. 학문의 영역이 완전히 다르다 보니 힘을 합해 같이 일해 볼 겨를이 과거에 한 번도 없었다. 아마도 앞으로도 그렇게 따로 갈 것이 유력하다. 이러한 협업 가능성 부재는 AI 환각 현상이 영원히 사라지기 힘든 가장 큰 이유 중 하나다.

또 한 가지 중요한 사실은 아무거나 데이터가 아니라는 점이다. 데이터 품질이 떨어지면 그것은 데이터 잉여 쓰레기에 불과할 따름이기 때문이다. 불행히도 이런 쓰레기 데이터가 부정확한 답을 유발하는 데 크게 기여하고 있다. 입으로는 데이터 시대라고 하면서 대학에 정통 데이터학과 하나 없다. 반면 빅데이터 분석에만 열심인 데이터 사이언스라는 그럴싸한 이름의 신종 학과는 우후죽순처럼 설치되어 있다. 그러나 문제는 거기서는 데이터의 품격을 다루지 않는다는 것이다. 아무거나 있기만 하면 무조건 데이터로 간주하고 곧바로 분석하려 든다. 소위 빅데이터 전문가의 한계는 데이터 품질에 정통하지 못하다는 데 있다. 그사이 기업에서는 데이터 품질 감별사 한 명도 없이 AI경영이란 기치 아래 데이터 시대를 맞이하려 들고 있다. AI 시대가 아니라 착각과 혼돈의 시대다. 원칙이 무너지는 사회에서 AI를 통한 조직 혁신, 국가 혁신, 인류 혁신, 이런 말들이 과연 설 자리가 있을까. AI의 작동 기반 필수 불가결 여건에 대한 정확한 이해와 사상누각적 한계, 더 나아가 데이터 품질 진단에 이은 품질 격상 노력 없이는AI를 통한 인류 사회 혁신은 한낱 지나친 수사에 불과할 뿐이다.

문송천 필자 이력

▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수

[문송천의 디지털 산책] 데이터 0.001%의 함정 …'확률 기계' AI는 진실을 모른다

AI를 통한 인류 혁신, 그 가능성의 경계