[문송천의 디지털 산책] 기초공사 부실한 '공공데이터' 통합…밑빠진 독 혈세 붓기

공공 정보시스템의 성능과 품질이 문제다. 올 10월 국정감사에서 이 문제가 집중 추궁될 것으로 아래와 같이 보도됐다 (2023년 10월 4일 기사).
수천억 규모 공공SW 사업, 국감 핫이슈 '부상'
행안위·교육위·보건복지위, 차세대 시스템 오류 등 집중 추궁 예상

관련기사

공공부문 정보시스템 운영시설 안정성 개선 본격 추진... 지진화재 등 67개 항목 안정성 기준 마련

이해를 쉽게 돕기 위해 예를 들면 교육부에서 컴퓨터로 일을 처리하는 과정에서 중등학교 교사가 시험지를 검색했더니 다른 학교 답안지가 출력됐다는 것이다. 왜 이런 어처구니없는 일이 벌어질 수밖에 없는 것일까. 더 심각한 문제는 이런 중대 오류가 교육부에 그치지 않고 최근에만도 여러 정부 부처에서 발생했다는 사실이다. 이런 시스템 개발하는 데는 적어도 각 시스템마다 수천억원 내지 수조원씩 소요된다(행안부 재난안전통신망은 1조4000억원, 보건복지부 사회보장정보시스템은 3496억원, 교육부 교육행정정보시스템은 2800억원). 밑빠진 독에 물붓기 식으로 백성들 고혈이 낭비되는 일이 벌어지고 있는 것이다.

이런 와중에 연말이 얼마 남지 않은 이 시점에서 세수가 금년에만도 59조원이 덜 걷힐 것으로 추산 전망됐다. 유감스럽게도 사상 최대다. 반도체 불황 요인이 크다. 세계적으로 반도체 한파가 있기도 하지만 한국 반도체가 사실은 대만에 밀려 수출이 대폭 줄어든 것이라 앞으로도 반도체가 경기 회복에 얼마나 기여할지는 두고 볼 일이다. 반도체 하강 국면 배경은 디지털 분야 국가 청사진이 부재한 탓이 크고 기업 역시 하드웨어 일변도 사고방식에서 벗어나지 못한 채 소프트웨어 시대에 대비하지 못한 탓이 크다. 소프트웨어 약세를 개선하려는 의지 없이 근시안적으로 하드웨어에만 혈안이 돼 왔고 이런 관행은 고질병처럼 굳어져 버렸다. 당장 세수 59조원 부족을 메울 방도를 찾지 않으면 국가 재정 파산 상황에 이를지도 모르게 됐다. 게다가 반도체는 현 추세대로 간다고 가정하면 향후 10년 내에 중국이 패권을 잡을 것이 거의 확실시되어 전망은 어둡기만 하다. 따라서 차제에 국가 운영에 비효율적인 요소들을 찾아내 혈세 누수 요인을 줄여 나가는 것도 매우 긴요한 시점이다. 이런 누수 요소 중 눈에 잘 드러나지 않는 것이 디지털 관련 예산이다. 컴퓨터를 통한 사무자동화 내지 정보화 과정에서 새나가는 돈이 많다는 점도 겉으로는 잘 나타나지 않는 부분이다.

문제는 지자체들이 데이터 서비스에서 다루는 데이터 인프라가 품질 면에서 좋지 않아 정보시스템 대부분이 잘못 설계돼 있어 시스템 유지보수 비용이 과다하게 지출되고 있는데다 그런 허술한 기반 위에 사상누각 식으로 무슨 빅데이터 서비스니 생성AI 서비스니 하면서 지자체 간에 경쟁을 벌이고 있어 예산 누수가 증폭되고 있다. 데이터가 엉망이면 어떤 디지털플랫폼도 실패할 수밖에 없다. 플랫폼에서 데이터 기초 인프라가 시스템의 가장 기초공사인데 그게 부실한 상태에서 그 위에서 뭘 해본들 사상누각이 될 수밖에 없는 이치다. 지자체 및 공공조직(정부부처 포함)에서는 이런 데이터 기초 부실 문제를 먼저 고치고 난 후 빅데이터 생성AI 등을 적용해도 전혀 늦지 않는데 순서가 완전히 뒤바뀌다보니 배가 산으로 향하는 격이다.

요즘 생성AI에 대한 관심들이 일반 대중 사이에서도 고조되고 있어 이를 예로 들어 설명해 보겠다. 데이터 품질 관리 부실로 인해 현행 통용 데이터의 절반이 엉터리라는 사실을 전제로 들어가보자. AI는 데이터를 가져다 쓰기만 하지 데이터를 창작해내는 존재는 결코 아니다. 창작은 기계가 흉내낼 길 없는 인간 고유의 영역인 까닭이다. 데이터의 품질 조잡으로 그들 데이터를 가져다 쓰는 AI가 할 수 있는 일도 극히 미약할 수밖에 없는데도 이를 간파하는 전문가조차도 없이 만일 AI를 활용한 대 시민 데이터 서비스에 들어가겠다고 한다면 예산 누수를 막기는 불가능하다는 이야기다. 즉 AI 결과 신뢰도가 작금에 심각하게 문제시되는 것도 원인은 AI의 먹이인 데이터 자체의 품질이 시원치 않아 생기는 것이다. 절반 데이터 무용지물 현상 때문에 생성AI가 만들어내는 결과의 신뢰도까지 역시 어쩔 수 없이 50% 이하로 떨어질 수밖에 없다는 사실을 알아야 한다.

지자체마다 데이터 통합이 중요하다는 말은 요란스럽게 하고 있다. 뭐가 중요한지는 공직사회도 이미 잘 알고 있다는 방증이다. 그러나 정작 데이터 품질 개선에 대한 기술적 실천 노력 하나도 없이 데이터 통합 중요성을 입으로만 외치고 있는 공직사회 고질병 또한 데이터 품질 개선을 가로막는 큰 걸림돌이 되고 있다. 공공기관(정부부처 포함) 정보시스템에서도 실제 물리적 통합 아닌 무늬만 통합으로 그쳐 이로 인한 예산 누수는 연 10조원을 넘을 것으로 추산되고 있는 막중한 실정이다. 국가 1년 총예산 650조원 중 수십조원이면 결코 작은 규모가 아니지 않은가. 이런 규모 손해를 초래하는 사건이면 기술적 범죄 행위에 해당하는 중대사고로서 누군가 책임을 져야 할 일이나 마치 아무런 일도 없었다는듯 태연스럽게 그냥 넘어가는 관행은 단죄를 받아야 할 사인이며 따라서 중벌로 다스려야 마땅한 일인 것이다. “소프트웨어는 하드웨어와는 달리 눈에 보이지 않아 그럴 수밖에 없지” 식으로 넘어가거나 “조직 컨트롤 타워의 부재야” 식으로 자위하는 공직 사회의 관행을 놓고 ‘철밥통’이라고 불러도 할 말이 없을 것이다. 어느 조직마다 소위 ‘디지털 혁신국’이 설치돼 있고 따라서 담당 국장이 책임자로서 존재하거늘 누구도 책임지지 않는 이런 풍토를 국민들은 어떻게 보겠는가.

단적인 예로 서울시 같은 지자체 케이스를 보자.

공직 사회는 특히 과거 관행에 대한 자기부정이 매우 힘든 섹터라 잘못된 시스템 유지보수에 예산 누수가 형언할 수 없을 정도로 심할 수도 있다. 서울시 같은 큰 지자체 경우도 예외가 아니다. 서울시는 시 정보시스템(각 실·국 별로 보유한 것 다 합치면 총 240개에 달함)의 데이터 품질을 개선할 경우, 유지보수비로 연 수억원 이내면 충분할 것에 대해 무려 연 수백억원 규모를 지불하고 있는 실정으로 추정된다. 낭비 치고는 그야말로 충격적인 규모에 해당한다. 그런데 문제는 서울시 자체가 이를 모르고 있다는 사실이다. 이런 규모면 무려 최적 예산 규모의 100배에 달하는 예산 낭비에 그치지 않고, 더욱 심각한 일은 이런 조악한 수준의 불량 데이터를 먹이로 돌아가는 디지털 플랫폼 인프라(빅데이터 플랫폼 및 AI 플랫폼) 구축에 들어가는 비용으로서 대략 1000억원 정도까지도 아무 효용 없이 밑빠진 독 물붓기 식으로 자동 낭비될 수밖에 없는 수순으로 이어진다는 이야기다.

이는 서울시만의 문제는 아니다. 데이터 물리적 통합 설계가 전혀 안 돼 있고 시스템들이 공간적으로 격리된 격납고(Silo)처럼 실·국 별로 각기 따로따로 돌아가고 있고 따로따로 유지보수되고 있는 점은 어느 지자체에서도 똑같다.
혈세 누수는 불을 보듯 뻔하다. 영국에서는 이런 누수 문제를 수없이 겪고 난 후 원천적으로 누수 원인을 제거하기 위해 국가회계청이 직접 나서서 문제를 국가정보시스템 개발 초기부터 차단하고 있다. 국가회계청이 데이터 통합 여부를 사전 및 상시 점검하는 주체로서 책임을 다하고 있는 것이다. 데이터 통합이 안돼 있다는 의미는 데이터가 왔다갔다 하는 길이 요소 요소 막혀 있는 상태라고 보면 된다. 한마디로 전국 도로교통지도 같은 역할을 하는 전사 '데이터지도'가 정보시스템 속에 들어있지 못하기 때문에 데이터 동맥경화 현상이 벌어지는 일이다. 이 문제를 해결하려면 원천 데이터를 재설계하는 노력을 통해 조직 전체 관점의 단일 통합데이터맵을 확보해야 한다.

서울시의 경우, 240개 분산 단절된 시스템을 갖고 있어 데이터까지도 자동으로 240군데에 분절돼 있다. 충격적인 사실은 서울시의 경우 데이터속성 (attributes)수가 무려 220만개에 달한다는 사실이다. 세계 최대 데이터 기업 월마트(Walmart)도 속성 수가 전체 2만개 이내인데 이게 도대체 말이 되는가. 월마트 데이터 볼륨은 현재 40PB(페타 바이트는 10의 15승)에 달할 정도로 방대하나 전체 속성 수는 단 2만개 이내라는 사실을 참고하자. 서울시의 정보시스템 방만 데이터설계 실태를 보면 데이터 아닌 것들이 데이터로 편법 둔갑하여 데이터 광주리에 가득 들어가 있다는 뜻이 된다. 220만개 중 218만개는 엉터리 쓰레기 데이터인 것이다. 서울시의 경우, 계산해보면 서울시가 불필요한 속성 중복을 무려 1만900%나 갖고 있는 것이다.

1만 퍼센트! 3만개 또는 4만개 정도라면 ‘애교’로 봐 줄 수도 있겠지만 10만개 이상이라는 건 중대 범죄급이다. 서울시만에 그치지 않고 어느 지자체 및 정부조직도 결코 예외가 아니라는 점을 알면 세수 부족으로 인한 문제를 해결할 수 있는 실마리를 찾는 데 상당히 큰 도움이 될 것이다. 이런 데이터 인프라 리모델링을 통한 국가 정보시스템 관련 예산 누수 현상 근절은 작금의 대통령실 카르텔 파괴 못지않게 중요한 국가적 과제다. 한국뿐만아니라 다른 나라에도 필요한 것이라는 점에서 세계만방을 향해 디지털 권리장전을 준비하여 국제 사회에 천명하겠다는 대통령실에서도 참고할 만한 가치가 충분히 있을 것이다.

[1] 문송천 교수는
1970년대 대학진학 때부터 컴퓨터를 전공했다. 카이스트 및 케임브리지대 교수(전산학과 및 경영대학원)를 지냈으며 Y2K 한국대표를 역임했다. 슈퍼컴퓨터를 최초 개발한 미국 일리노이대학교에서 전산학박사를 1980년대초 취득함으로써 국가전산학박사1호가 됐다. 박사과정 때부터 클라우드와 블록체인 분야를 세계 최초로 개척한 소프트웨어 제1세대 학자로서 클라우드라는 용어 자체도 그가 1982년에 세계 최초로 창안한 3인 중 하나다(클라우드란 용어의 유래는 데이터 관리의 중요성을 알리기 위해 데이터라는 뜻과 동격인 CLass/Object/Ubiquity/Distributed - 이 네 단어 이니셜 다섯 글자로 1982년에 만든 것). 만 24세에 대학교수 생활을 시작하여 데이터베이스, 빅데이터, 블록체인, 정보보안 연구를 통해 저서 22권, 논문 199편을 쓰고 박사제자 30명을 배출하였다. ‘컴퓨터개론’이라는 최초의 한글 교과서(1975년), ‘DB엔진’ 아시아 최초 개발(1990년) 및 블록체인 SW엔진’세계 5번째 개발(1992년) 및 기업 데이터베이스를 효율적으로 설계/개발/운영하기 위한 ‘데이터 비만도’ 개념을 창시하는 등 세계를 놀라게 하는 공적을 남겼다. 국가정보시스템 구축에 기여하여 ‘금융FBI’ 역할의 FIU시스템 설계, 특허청, 한국방송 등에서 데이터 설계를 직접 총괄 기술 지도했다. IT 후학 양성을 비롯하여 UNDP/UNHCR/Red Cross 재난 현장 전문가로서 아프리카 중남미 동남아 동유럽 팔레스타인 등 개발도상국 30여 개국 현지 봉사활동을 통해 IT 한국의 위상을 세계만방에 알린 공로로 대통령으로부터 국가녹조훈장을 서훈받은 바 있다. 현재는 대한적십자사 친선대사 및 유럽IT학회 아시아대표이사로 있다.