[문송천의 디지털 산책] '골칫거리' 데이터.. AI는 죄가 없다

문제의 원인이 다른 데 있는데도 엉뚱한 곳에서 헤매는 일 혹은 일의 앞뒤와 경중을 가리지 못하는 어리석음 혹은 나무만 보고 정작 숲을 보지 못하는 일을 우리는 종종이 아니라 상시 겪으며 살고 있다. 이런 경우는 급변하는 정보기술(IT)분야에서 일반인들의 IT 전반에 대한 상식이 부족해 두드러지게 나타난다. 인공지능(AI)에서 문제가 되는 것이 무엇이길래 28개 주요국 참석 하에 세계 AI 안전 정상회의가 최근 영국에서 열린 것일까(2023년 11월 1일자 로이터 통신 보도).

컴퓨터 작동 원리에 대해 이해하려면 하드웨어 기본 원리와 소프트웨어 기본 원리를 모두 알아야 한다. 하드웨어 주요 장치로는 두 가지가 있다. 기억장치와 계산장치가 그것이다. 기억장치를 상용화한 것이 삼성전자가 주력 제품인 메모리 칩이며 칩 하나 안에는 무려 10억개 이상의 스위치(반도체 트랜지스터 형태)가 내장되어 구실을 하기 위해 매우 가느다란 (나노미터급; 1나노는 10의 -9승을 지칭)전기회선으로 연결된다. 회선 두께가 인간 머리카락의 3만 분의 1에 해당하는 수준으로 가늘다. 계산장치를 상용화한 것이 비메모리 칩으로서 이쪽에서는 인텔이라는 미국 기업이 강세를 보이고 있으며 삼성전자는 앞으로 제품을 개발하겠다고는 했으나 아직은 주력제품이 없는 상태이다. 계산장치를 시스템 칩으로 부르기도 하는데 그 근거는 그것이 하드웨어 세트(기억장치와 계산장치) 내에서 두 장치 간에 상호 협력 작용하게끔 만드는 역할의 ‘시스템 소프트웨어’와 연결고리, 즉 접점이 되기 때문에 ‘시스템’자를 따와서 그렇게 부른다. 이 시스템 소프트웨어가 그 위에서 돌아가는 본격적인 소프트웨어 법전(하드웨어를 구동하는 모든 규정(프로토콜) 세트)과 다시 연결되는데, 실내악단에 비유하면 기억장치 계산장치를 포함한 각종 하드웨어 장치들을 놓고 총체적으로 지휘자 역할을 수행하는 소프트웨어를 보통 운영체계(OS)라고 부르는 것이다. OS는 하드웨어 장치들이 쉬지 않고 바삐 활용될 수 있게끔 만들기 위해 다층구조 법전처럼 구성된다. 마치 사회를 효율적으로 운영하기 위해 헌법 민법 상법 형법 등이 필요하듯이 똑같이 그런 식으로 구성된다. 소프트웨어 구조가 인문학 중에서도 법학과 동일하다는 말이 나온 근거가 이것이다. OS 대표작은 마이크로소프트 제품 윈도스(Windows)와 구글 제품 안드로이드가 있다.

OS로 할 수 있는 일은 문서작성 파일전송 등이다. 즉 데이터를 컴퓨터에 OS를 통해 집어넣을 수 있는 것이다. 그런데 데이터의 입자 단위가 쟁점이다. 문서나 파일은 데이터로 치면 덩어리가 크고 거친 작업이며 데이터를 잘게 그리고 세밀하게 다루고자 한다면 또 OS 상위에서 돌아가는 데이터베이스(Database; 약칭 DB)라는 기술을 도입하여 데이터설계 특수 기법을 써야 가능하다. 그러니까 학교에서 작은 집단의 데이터를 대상으로 실습할 때는 OS로는 충분하지만 대기업에서 데이터를 형성하고 데이터를 조작 가공하기 위해서는 DB엔진이란 소프트웨어 없이는 불가능하다. 그런데 이 DB엔진이 역할을 발휘하려면 사람이 데이터를 정형화해서 DB엔진에 먹이로 주어야만 한다. 즉 데이터 만드는 일은 사람 몫이지 기계는 데이터를 만들지 못한다. 이쯤에서 알아야 하는 점은 AI도 사람이 아니라 기계에 불과하기 때문에 데이터를 만들지 못하는 존재라는 것이다. 여기가 사람과 기계의 역할이 극명하게 구별되는 지점이다.

관련기사

데이터를 설계(모델링)한다는 말은 데이터 관리를 질이나 속도 면에서 최적으로 하기 위해 데이터를 정형화하는 과정을 가리키는 것으로서 직조기 같은 것으로 장인 손으로 직접 짜는 것을 뜻한다. 데이터들 상호간의 관계가 도로교통 지도처럼 데이터 지도 형태로 꾸미는 것을 가리킨다. 문제는 이 세상에 정형화된 데이터가 20% 정도밖에는 되지 않아 세상에서 일컫는 대부분의 데이터는 정형화되지 않은 채 그대로 사용된다는 점이다. 이런 후자의 데이터들이 비정형 데이터로서 그것은 데이터 관리 효율성이라는 건 전혀 기대할 수 없는 수준 이하의 데이터 구조를 취하고 있다. 따라서 AI가 자신의 먹이로 받아들이는 데이터의 80%는 비효율적인 데이터들일 수밖에 없는 구조가 저절로 조성되는 것이다. 또 다른 문제는 AI라는 주제와 데이터 정형화라는 주제는 성격상 완전히 별개라는 점이다. AI에게 정형화된 데이터만 먹으라고 강요할 수만 있다면 바람직하지만 그건 불가능한 일이다. 만일 강요 가능하다면 AI 결과의 품질은 대거 개선될 것이 분명하다. 그러나 AI 안전정상회의에서도 그런 강요란 불가능하다. 기업들이 똑똑하다면 스스로 알아서 정형화 노력을 기울여야 할 뿐이라는 사실이 결정적 한계인 것이다. AI가 기업 데이터를 학습하겠다고 한다면 바로 그 순간부터 AI의 운명은 기업 손에 달려있다고 해도 과언이 아닌 것이다.

데이터 정형화 과정은 이렇다. 도로교통지도가 어느 지점에서 출발할 때 어느 출발점이 출발한 곳을 기준으로 보면 도로 경로 연관되는 곳들을 거쳐 나가 한바퀴 돌아서 자기 위치로 회귀하는 도착점이 되게끔 데이터설계도를 짠다면 4각경로가 형성되게 된다. A에서 출발하여 B로 가고 B에서 출발하여 C로 가고 C에서 출발하여 D로 가고 D에서 출발하여 원래 A로 오면 A에서 출발하여 A로 회귀하는 4각경로가 생기게 된다. 이런 4각경로가 존재하면 데이터 간의 연관성이 충실하게 묘사된 모습, 즉 DB 구조를 갖게 되며 그때에야 비로소 DB가 제작됐다고 부른다. 그러나 아무 4각경로 없이, 즉 돌아오는 회귀경로 전혀 없이 그냥 잔뜩 일방향으로 뻗어 나가기만 하는 설계는 편법 내지 위법 데이터 설계로서 DB라고 불러서는 절대로 안된다. 설계 원칙을 범법 행위 저지르듯 위반했기 때문이다.

데이터 품질을 최적 수준에서 유지하기 위한 최선의 방법으로서 등장한 4각경로 데이터 정형화 철칙과 세부 규범은 1975년에 나온 것이다. 그러니까 지금으로부터 무려 50년 전에 나온 것임에도 불구하고 이를 모르고 있다는 것은 전혀 배우려 노력하지 않아 결과적으로 무지 무식하거나 ‘될대로 되라’는 식 방임주의에서 비롯된 것이기 전에는 도저히 이해할 수 없는 대목이다. 4각이 형성되지 않을 때 온갖 심각한 부류의 데이터 오류는 마치 기다렸다는 듯 즉각적으로 등장한다. 답의 오류 혹은 답의 지연 문제 등으로. 그러니까 얼마 전 교육부 국가 시스템에서 시험지를 요청했더니 심지어 다른 학교 답안지가 나왔다는 오류 사례는 통상적인 수준의 오류인 것으로서 사실 이게 얼마나 해괴망측하고도 창피한 일인지에 대해서는 더 이상 말할 필요도 없는 것이다. 50년 전에 나온 기술을 외면하다 벌어진 대형 불상사에 대해 책임지는 이도 없는 것에 대해서는 도대체 어떤 설명이 가능할까. 말만 DB지 50년 전에나 가능했던 파일 구조를 지금도 구태의연하게 우리 회사에서도 여전히 채택하고 있다는 사실을 알고도 부끄럽지 않다면 그런 철면피가 또 어디 있을까.

그런데 문제는 세상에는 데이터 정형화 기본 원리에 무지하여 엉터리로 설계된 데이터들이 거대한 쓰레기 폐기장 산더미처럼 크고도 방대한 규모로 산재해 있는 것이 현실이다. 한마디로 기업들이 정형화에 무지하기 때문이고 또한 정형화를 위해 외주를 주는 게 관행이다 보니 외주업체까지 정형화를 제대로 하지 않아 결과적으로 데이터 품질이 말도 아니게 떨어지는 형편없는 데이터들이 기업 내에 보통 많은 게 아니다. 그러니까 여기서 알아야 할 점은 아무거나 데이터가 아니라는 사실이다. 정형화를 엉터리로 한 탓이다. 즉 데이터에 대한 감각 전혀 없이 무분별하게 아무거나 데이터로 둔갑시켜 데이터 통에 잔뜩 쌓아 놓은 탓이다. 연구결과에 의하면 세상 데이터의 절반은 이런 엉터리 데이터 천지다. 이런 엉터리들은 이해를 돕기 위해 인체에 비유한다면 아무 쓸모없는 과잉 체지방질에 해당한다. 이것은 생기지 않도록 데이터 설계 시에 미리 세심하게 신경써야 할 부분이며 만일 설계 실수로 생긴 것이 확인되는 순간 바로 없애는 것이 필요하다. 그렇지 않고 방치했다가는 엉터리 데이터 규모가 눈덩이처럼 커져서 급기야는 관리 불가능한 수준으로 진입할 수 있으며 그런 날에는 데이터관리 비용이 급상승하여 기업은 물론 공공조직에서 조직을 망가뜨리는 암적인 존재로 자리잡게 되며 그 조직의 운명은 퇴보 일로를 걷게 되는 신세를 면할 수 없다.

그렇다면 이런 데이터설계 실패가 AI 시대에 우리에게 던져주는 바는 무엇일까. 그것은 AI는 단순히 데이터를 먹이로 취하는 존재이지 데이터 품질을 개선하거나 데이터품질 관련하여서는 AI가 할 수 있는 일은 하나도, 즉 아무것도 없다는 사실에서 출발해야만 시사점을 발견할 수 있다. 혹자들이 현혹하는 식으로 이야기하는 말로는 AI가 데이터를 만들어 내기도 한다는 말이 대표적이다. 그러나 이는 낭설이다. AI는 데이터를 만들지 못한다. 만들어진 데이터를 단순히 가져다 먹을 뿐. 그러니까 AI가 가져다 먹는(쓰는) 데이터가 엉터리면 AI가 구해내는 결과물(이것은 데이터가 아니다!)도 자연적으로 조악할 수밖에 없는 것이다. 따라서 전 세계 데이터의 절반이 엉터리인 상황에서는 AI가 그런 품질이 조악한 데이터들을 갖다 써서 가공 처리 분석해낸 결과에 대한 신뢰도 역시 50% 이하라는 이야기가 그대로 성립되는 것이다.

그러므로 데이터가 골칫거리지 AI란 그저 컴퓨터 명령 덩어리(알고리즘 덩어리)일 뿐으로 데이터와는 상관이 없어 AI는 본디 골칫거리는 절대로 아니라는 사실을 이쯤이면 어느 독자도 이해 가능할 것이다. 그런데 왜 AI가 세계 사회 안전 정상회의에서 죄인으로 지목을 받고 있는 걸까. 그것은 완전히 데이터와 AI 간의 상관관계에 대한 무지에서 비롯되는 것이다. 컴퓨터 명령 덩어리를 ‘코드’라고 부른다, 코드는 컴퓨터 언어로 코딩된 결과물이기 때문이다. 이런 각도에서 보면 AI는 단순히 코드지 결코 데이터가 아니다. 컴퓨터 내에 존재하는 것이 데이터 부류에 속하는 것인지 코드 부류에 속하는 것인지를 전혀 분간할 수 없다면 그것은 마치 요리할 때 식재료와 요리법을 구분 못하는 것과 동일하다. 여기서 컴퓨터 작동에 비유하면 식재료는 데이터에 해당하는 것이고 코드는 요리법에 해당하는 것이다. 요리하려면 식재료를 어느 정도 가지런히 다듬어 깨끗하게 손질해 놓듯이 컴퓨터에서도 데이터는 적법하게 설계해 놓아야 쓸 수 있는 좋은 재료가 되는 것이다. 이런 적법 설계 과정을 거치는 일은 전혀 어렵지 않은 기본 중에 기본이다. 그럼에도 불구하고 세상에 적법 설계를 거치지 않고 그냥 원래 생긴 그대로, 다시 말하면 부적법하게 혹은 불법으로 코드에 의해서 사용되는 게 있다면 그건 데이터 자격조차 갖추지 못한 것이라는 점을 알아야 한다. 따라서 세계 AI 정상회의는 세계 데이터 정상회의로 명칭을 바꾸는 게 적절하다. 데이터 설계 소홀이 골칫거리지 AI가 골칫거리인 것은 절대 아니다. 데이터 시대를 산다고 입으로는 열심히들 하면서도 데이터 설계는 완전히 뒷전이고 데이터 초보 감각조차 전혀 없는 세태를 과연 어떻게 평가해야 될지 모르겠다.

돌이켜보면 인류는 컴퓨터가 등장한 이래 지난 80년간 사회 안전과 번영에 컴퓨터 혜택을 많이 누려왔다. 앞으로도 물론 그럴 것이다. 만일 컴퓨터가 사회 안전에 조금이라도 위험 요소를 불러일으킬 소지가 있다면 그것은 전부 데이터 쪽에 있지 절대 AI 쪽에 있지 않다는 사실을 망각하면 아니 될 것이다. 중요한 것은 어느 것이 데이터고 어느 다른 것이 코드인지 분간하는 능력이다. 데이터가 코드(AI 포함) 이전의 선행 사안이라 코드보다 더 중요하다는 점을 알아야 컴맹 수준을 벗어날 수 있다. 그러므로 데이터 관리, 더 정확하게는 데이터가 최적으로 동시에 효율적으로 운용되기 위해서는 반드시 데이터 모델링에 만전을 기해야 할 것이다. 그렇지 않다면 어느 조직이든 데이터 시대에 낙오자 또는 실패자로 전락할 것이다. 지난달에 나간 디지털 산책 '공공데이터 부실, 밑빠진 독 혈세붓기' 칼럼을 보고 행정안전부 디지털정부실 공공데이터국장으로부터 연락이 왔다. 국가(대통령실)에서 국가 데이터맵을 만들려고 하는데 전문가 면담을 요청한다는 내용이었다. 만나보니 데이터맵 구축에 대한 의지를 확인할 수 있었다. 과연 전문가 지도를 제대로 받아 역대 수준급 국가 통합데이터맵을 만들지 아니면 무늬만 그런 구태의연한 졸속 데이터맵으로 귀결될지는 지켜봐야 알겠지만 차제에 다시는 국가재난안전시스템이라든가 사회보장복지시스템 혹은 교육정보시스템이 먹통이 되거나 오류가 나는 사고가 없는 세상이 되기 위해서는 국가데이터플랫폼 내 통합데이터맵을 제대로 설계(데이터 정형화)해야 될 것이다. 요즘 지방 활성화 및 차별화 추세에 맞춰 각 지자체마다 자체 대 시민 서비스 데이터플랫폼 구축은 물론 AI를 표어로 삼는 곳들이 우후죽순처럼 많이 생겨나고 있다. ‘AI 고등학교’도 대거 출범할 것이라고 한다. 이 글을 읽고 AI가 문제의 근원이 아니라는 점을 안다면 AI고보다는 이 세상의 데이터 품질 혁신을 위해 대신 ‘데이터고’를 세우는 편이 도움이 될 것이다.

문송천 교수는
1970년대 대학진학 때부터 컴퓨터를 전공했다. 카이스트 및 케임브리지대 교수(전산학과 및 경영대학원)를 지냈으며 Y2K 한국대표를 역임했다. 슈퍼컴퓨터를 최초 개발한 미국 일리노이대학교에서 전산학박사를 1980년대 초 취득함으로써 국가전산학박사1호가 됐다. 박사과정 때부터 클라우드와 블록체인 분야를 세계 최초로 개척한 소프트웨어 제1세대 학자로서 클라우드라는 용어 자체도 그가 1982년에 세계 최초로 창안한 3인 중 하나다(클라우드란 용어의 유래는 데이터 관리의 중요성을 알리기 위해 데이터라는 뜻과 동격인 CLass/Object/Ubiquity/Distributed - 이 네 단어 이니셜 다섯 글자로 1982년에 만든 것). 만 24세에 대학교수 생활을 시작하여 데이터베이스, 빅데이터, 블록체인, 정보보안 연구를 통해 저서 22권, 논문 199편을 쓰고 박사제자 30명을 배출하였다. <컴퓨터개론>이라는 최초의 한글 교과서(1975년), ‘DB엔진’ 아시아 최초 개발(1990년) 및 블록체인 SW엔진 세계 5번째 개발(1992년) 및 기업 데이터베이스를 효율적으로 설계/개발/운영하기 위한 ‘데이터 비만도’ 개념을 창시하는 등 세계를 놀라게 하는 공적을 남겼다. 국가정보시스템 구축에 기여하여 ‘금융FBI’ 역할의 FIU시스템 설계, 특허청, 한국방송 등에서 데이터 설계를 직접 총괄 기술 지도했다. IT 후학 양성을 비롯하여 UNDP/UNHCR/Red Cross 재난 현장 전문가로서 아프리카 중남미 동남아 동유럽 팔레스타인 등 개발도상국 30여 개국 현지 봉사활동을 통해 IT 한국의 위상을 세계 만방에 알린 공로로 대통령으로부터 국가녹조훈장을 서훈받은 바 있다. 현재는 대한적십자사 친선대사 및 유럽IT학회 아시아대표이사로 있다.

문송천 필자 이력

▶카이스트 경영대학원 교수 ▶미국 일리노이대(어바나 샴페인) 전산학 박사 ▶유럽IT학회 아시아대표이사 ▶대한적십자사 친선홍보대사 ▶카이스트/케임브리지대/에든버러대 전산학과 교수