Deep Insight 아주경제 오피니언

문송천 교수 moon@kaist.edu

- 카이스트 경영대학원 교수
- 미국 일리노이대(어바나 샴페인) 전산학 박사
- 유럽 IT학회 아시아 대표이사
- 카이스트, 케임브리지대, 에든버러대 전산학과 교수

[문송천의 디지털 산책] 수능에서 '미적분2' 사라지면 큰일난다고? [문송천 카이스트 경영대학원 교수] 융합이란 화두가 사회적이고도 학문적인 쟁점으로 떠오른 것은 꽤 오래전 일이다. 2009년부터 대학마다 각종 융합기술원이 설립되면서 융합의 기운이 감돌기 시작했다. 그러나 지금까지 융합을 해서 얻은 실효는 없었다고 봐도 과언이 아니다. 융합이 우리의 살길이라며 우리도 15년 전부터 줄기차게 외쳐왔으나 실상은 난상토론만 하다 실익을 거두지 못했다고 봐야 한다. 예를 들면 어느 두 기술을 융합했더니 자동차가 갑자기 하늘을 날기 시작했단 소리를 들어 본 적이 없기 때문이다. 단독 기술에 의한 창조적 파괴가 벽에 부딪히자 고안해낸 발상이었으나 쉬지 않았다. 그러던 사이에 4차산업혁명이란 개념이 불쑥 등장했다. 2016년 초 일이다. 1차부터 3차까지 산업혁명은 시간이 한참 지나고 난 후 나중에 붙여진 이름이다. 2차산업혁명 돌입 후 1차산업 시대란 정의가 비로소 이루어졌다는 뜻이다. 2차도 마찬가지였다. 그러나 4차는 시작부터 달랐다. 3차가 채 끝나지도 않았는데 4차를 먼저 들고 나온 것이다. 왜 그랬을까. 그 뜻을 이해하려면 융합의 핵심이 과연 무엇인지 생각해봐야 한다. 4차 개념의 중심에는 빅데이터, 블록체인, 인공지능이라는 셋이 꼭 등장한다. 사실상 그 셋은 소프트웨어(SW)라는 단어 하나로 축약 가능한 것이다. 따라서 SW가 융합의 핵심으로 등장한 것이다. 이를 증명해 준 것이 2024년 벽두에 펼쳐진 최대 정보가전 전시회 CES였다. 거기서는 인공지능으로 도배된 자동차 기술이 등장했다. 인공지능은 SW 범주에 확연히 속하는 기술임은 누구나 주지하는 사실이다. 하늘을 나는 자동차는 기계공학 분야와 SW 분야 간 융합을 통해서만 실현 가능한 것이다. 이를 CES 현장에서 보고도 융합의 위력을 실감하지 못하는 이는 없을 줄 안다. 실은 이래서 SW가 4차산업혁명의 중추라는 이야기가 8년 전부터 나왔던 것이다. 하드웨어(HW) 위주였던 3차산업 시대를 넘어 SW 중심으로 가자고 선언했던 것이다. 산업 각 분야에서는 그 단어의 의미를 자체적으로 도입하여 살려 볼 길을 모색하기 시작하는 움직임이 일어났다. 그런 시도가 먼저 나타난 곳은 제조업이다. 산업의 기초는 제조업이기 때문이다. 따라서 융합이 거기서 먼저 시도된 것은 필연이었다. 제조업에서 즉시 생산 및 오작동률 축소가 최대 관건이다. 따라서 공정 자동화가 요구된다. 이런 자동화에는 HW도 필요하지만 대부분은 SW로 해결해야 하는 난제들이 산적해 있다. SW는 원래 컴퓨터 하드웨어, 즉 컴퓨터 내 기억장치와 계산장치를 구동하기 위해 고안된 것이다. 컴맹이 아니라면 두 장치가 HW의 대표 주종이란 사실은 누구나 다 알고 있을 것이다. 그런데 두 장치의 사용 효율을 극대화하기 위해서는 두 장치를 교신 및 작동 수순을 제어하는 일이 필요한데 그런 일은 HW로 할 수 있는 게 아니라 육법전서 같은 프로토콜(법률 체계)을 정해서 해야 한다. 그 육법전서 프로토콜이 바로 SW인 것이다. SW를 그 자체로 완벽한 법학 혹은 인문학이라고 하는 근거가 여기에 있다(내일신문 2011년 10월 24일자). SW가 물리·전기·전자·소재·부품·장비 중심의 HW와는 판이한 종류라는 사실을 알 수 있는 부분이다. 전산학이 공부하기 비교적 어려운 분야라고 하는 이유는 HW와 SW를 모두 알아야 하기 때문이다. 어느 하나만 이해하는 수준에서는 컴퓨터 전체가 어떻게 돌아가는지 이해할 수 없기 때문이다. 다시 말하면 이과적 소질과 문과적 소양을 겸비하지 않고는 전산학을 전공해봤자 전체 그림을 그려 볼 수 없다는 뜻이다. 다른 학문은 대부분 이렇지 않다, 대개 이과적 소양이나 문과적 소양 하나만으로 어떻게든 견뎌낼 수 있는 것들이다. 과거 명문대 학부 법학과 출신들이 카이스트 대학원 전산학과에 입학했다가 중도 탈락한 학생들이 다수 있었다는 사실이 이를 증명해 준다. 그래서 전산학이 학문 중에서는 난도가 상당히 높은 편에 속하는 것이다. 그러나 이 대목에서 그런 탈락생이 발생한 것이 과연 옳은 일이었을까 생각해 보지 않을 수 없다. 융합을 내세운 이 시대에 과연 맞는 학과 교과과정이었던지 세심히 짚어봐야 한다는 뜻이다. 결론부터 말하면 우리나라에서만 가능한 결과였다는 점이 눈여겨볼 점이다. 영국 같으면 교과과정 구조의 유연성으로 이런 탈락 사례는 발생하기 힘들다. 반면 우리는 대학에서 유연성은 물론 확장성에서도 선진국을 따라가지 못하는 상태에 머물러 있다. 영국에는 전산학과도 있지만 ‘전산 및 전기전자과’ ‘전산 및 경영학과’ ‘전산 및 수학과’ 식으로 전산 분야를 여러 개 트랙으로 구분하여 트랙별로 학과를 운영하고 있다. 반면 한국 대학은 어느 학과장도 융합 실천에 리더십을 발휘하게 돼 있지 않은 구조로 운영된다. 학과장직을 사이 좋게 돌아가면서 맡는 책임감 부재 풍토가 문제의 근원이다. 선진국은 학과장이 모든 인사권과 재정권을 장악하는 학과장 중심제로 운영된다. 책임과 회계가 어느 선에서 이뤄지는지를 명확히 말해주는 대목이다. 우리는 학과장 권한이 없다 보니 학장 내지 총장 선으로 넘어가는데 윗선에서는 학과별 특성을 고려할 수 없는 입장이라 3~4년 임기 중 일반적인 틀 안에서 별 문제 없이 적당히 넘어가려는 태도를 취할 수밖에 없게 되는 것이다. 이래서야 조직 러더십이 살겠는가. 컴퓨터 80년 역사에 큰 족적을 남긴 이들을 보면 학계를 제외하면 산업계에서는 빈톤 서프, 빌 게이츠, 스티브 잡스, 리누스 토르발스, 팀 버너스-리 같은 5인이 있다. 전원 HW와는 무관한 SW 전문가다. 조금 생소할 수 있는 서프(미국인)는 올해 80세로 인터넷 창시자다. 버너스-리(영국인)는 올해 빌 게이츠와 같이 69세로 월드와이드웹 창시자다. 토르발스(핀란드인)는 올해 55세로 SW 오픈소스 운동 창시자다. 공통점은 모두 SW 전문가라는 사실이다. 학문 간 융합의 관점에서 볼 때 또한 최근 수능시험에서 미적분2 폐지 관점에서 볼 때 5인 중 미적분에 정통했던 이는 서프와 버너스-리 둘뿐이다. 각기 수학과와 물리학과 출신이기 때문이다. 그러나 그들은 인터넷 프로토콜과 웹을 개발할 때 미적분 실력을 발휘할 일은 없었다. 인터넷 프로토콜과 웹도 100% SW였기 때문이다. 나머지 3인 중 둘은 대학을 중퇴한 관계로 미적분과는 인연이 아예 없으며 토르발스는 전산학과 출신이지만 리눅스 운영체계를 개발할 때 미적분을 쓴 일은 한 번도 없었다. 이런 경험치를 토대로 보면 학과 내에서도 전공 트랙별로 필수과목을 다양하게 제공하는 것이 합리적이라는 발견을 할 수 있다. 예를 들면 ‘수학과’에선 미적분이 당연히 필수로 지정돼야겠지만 ‘전산 및 경영학과’에선 미적분은 필수에서 제외 가능하다. 하지만 우리는 역부족이다. 경직된 사고방식과 리더십 불명으로 트랙별 교과과정 차별화를 제대로 실천하지 못하는 상태에 머물고 있는 게 교육현장 현실이다. 전산도 대표적 이공계 전공 중 하나지만 이공계 내에서도 전자와 전산처럼 성격이 현격히 다른 분야가 존재한다는 점을 간과해서는 안 된다. 이공계 대학교수들이 미적분2를 없애면 장래에 망할 것이라는 의견은 지나친 것이다. 미적분2를 고교에서 가르치며 대학 입학시험에 포함시키는 것이 전 세계적 추세라는 일부 전문가의 의견 역시 다소 과장된 것이다. 그런 증거는 찾기 어렵다. 그동안 우리는 수능으로 인해 교육체계 개편을 수차 시도하였으나 혹시 그 모두가 결국은 미래를 세심히 내다보지 못하는 땜질 처방 수준이 아니었던가 허심탄회하게 돌이켜봐야 한다. 이런 반성이 있다면 수능 문제에 대한 절대 반지 열쇠를 제공해 줄 가능성이 있다. 결론적으로 이번 미적분2에 대한 교육정책은 맞는 방향으로 설정됐다고 평가할 수 있다. 혹시라도 미적분2 교육에 대한 미진한 부분이 있다면 대학 입학 후 필요 학과에서 바로 수강하게 하면 될 것이다. 그렇게 한다면 이공계 대학교수들이 우려하는 사태는 발생할 리 없을 것이다. 세상은 급변한다. 그래도 변하지 않는 것은 우리의 자세와 관습이다. 과거 행태를 고수하려는 자세에 대해 대문호 톨스토이는 “사람은 변하지 않는다”라는 간단한 말로 표현한 바 있다. 그는 걸작 ‘부활’에서 “사람은 흐르는 강물과 같다. 강물은 어디에 있든 언제나 같은 물이다. 다만 강은 어떤 곳은 좁고 물살이 빠르기도 하다. 사람도 마찬가지다”라고 인간 심성에 관해 행동분석학적으로 묘사한 바 있다. 흐르는 강물처럼 시류 변화에 유연하고도 민감하게 적응하라는 뜻 아닐까. 컴퓨터에서 무려 80% 몫을 차지하는 SW라는 소용돌이가 융합이라는 거대한 흐름으로 전 분야를 강타하고 있는 지금 우리는 무엇을 어떻게 얼마나 섬세하게 하고 있는지 자문해봐야 할 것이다. 나머지 불과 20%가 하드웨어 몫이다. SW 시대에 수능 미적분 문제는 이런 융합의 대세 방향에 걸맞게 새롭게 설정되어야 할 것이다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수 2024-04-10 06:00:00
[문송천의 디지털 산책] 범정부 AI 플랫폼 구축…데이터 품질개선이 핵심 [문송천 카이스트 경영대학원 교수] 정부가 범정부 인공지능(AI) 플랫폼을 구성하기 위한 작업에 착수했다(지디넷코리아 2024년 2월 23일자). 각급 기관별로 각기 다른 AI 적용 방안을 만든다면 중복의 우려도 있고 품질 문제도 있을 것이기 때문에 범정부적으로 일원화된 형태로 가야 한다는 것이 정부의 입장이다. 이를 보면 중복 요인 제거를 통한 단일화(통합) 필요성에 대해 정부도 이제는 어느 정도 인식하고 있는 것 같다. 하지만 품질 개선에 있어서 데이터 품질을 염두에 둔 것으로 보이지는 않는다. 최근 차세대 지방세입정보시스템 오류(전자신문 2024년 2월 24일자)가 발생했다. 보도에 의하면 이 시스템은 지자체마다 개별 관리하던 지방세 시스템을 하나로 통합하는 것이 목표였다고 한다. 세금완납증명서가 제때 발급되지 않았고 가상계좌를 통한 납부가 제대로 이뤄지지 않았다는 점을 보면 정보시스템 품질에서 실패한 사례다. 이 시스템도 통합을 추진하기는 했으나 데이터 통합까지는 가지 못했을 것으로 추정된다. 이런 통합 문제를 제대로 풀어나가고자 한다면 데이터 품질 전문가를 정부 부처와 지자체마다 확보하고 있는지에 대해서 자문해봐야 한다. 정보시스템 성공과 범정부 AI 플랫폼 성공을 위해서는 데이터 품질이 무엇보다 중요하기 때문이다. 정부가 AI 플랫폼을 구축하겠다는 이야기는 공공데이터를 AI의 먹이로 사용하겠다는 말과 같다. 그렇다면 AI에 먹일 데이터의 품질에 대해서도 당연히 신경을 싸야 한다. 품질이 조악한 수준인 데이터를 먹이면 어떤 환각 현상과 착시 현상이 벌어질지는 말하지 않아도 잘 알 것이다. 마침 범정부 AI 플랫폼 사업은 정보시스템계획(ISP) 단계라고 하니 서둘러 데이터 품질 관련 분석 및 설계 전문가가 있는지 꼭 체크해봐야 할 것이다. 행정망 마비 사태 이후에도 데이터 품질을 검토해 보겠노라는 정부의 의지는 전혀 보이질 않았다. 이는 역으로 보면 정부가 데이터 품질에 대해 나름 자족하고 있다는 간접적 증거 아닐까. 디지털 정부 평가에서 한국이 세계 1위를 차지했다고 해서 자족해서는 아니 될 이유가 있다(아주경제 2024년 1월 30일자). 더구나 2년 연속 1위라는 사실을 접하는 시민들로서는 정부의 이미지가 행정망 사태와 겹쳐 앞뒤가 전혀 맞지 않는다는 의견이 보편적이다. 행안부는 이런 모순에 대해 스스로 “평가 기준이 다르기 때문”이라고 설명한다(2024년 1월 31일자 조선일보 8면). 그렇다. OECD 같은 국제기구에서는 시스템의 질보다는 정보공개 개방성에 초점을 둔다. 그게 국제기구 평가의 현주소이자 한계다. 주요 평가항목 모두 정부나 지자체가 보유하고 있는 정보에 대해 시민들과 공유할 의지를 평가하는 것 위주인 탓이다. 데이터 공개 항목이 단적인 예다. 개방 의지에 대해서는 한국은 상당히 앞서 있지만 데이터 품질을 보는 학계 시각은 많이 다르다. 학계에서는 데이터 품질에 더 가치를 두며 품질을 구체적으로 수치화할 수 있어야 한다고 본다. 이런 품질 수치 지표에는 여러 가지가 존재하는데 그 대표적인 것으로는 데이터가 얼마나 불필요하게 중복되어 있는지를 나타내는 데이터 중복률이다. 인체에 비유하면 ‘데이터 비만도’와 동일한 맥락에서 이해하면 된다. 낮출수록 품질은 좋아진다. 데이터의 군살을 빼기 위해 필요 불급한 것들은 완전히 제거하는 것이 데이터 비만도를 낮추는 지름길이다. 그래야 시스템의 질과 속도가 개선된다는 것은 학계 정설이다. 그러나 현장에서는 중복을 오용하고 더 나아가서는 남용하는 게 관행처럼 돼 있다. 이러한 불필요 데이터 중복률 수치까지 고려한다면 OECD 평가와는 다른 순위가 나올 것이다. 실제 말단에 깔려 있는 데이터 품질에 집중하지 않다 보니 핵심을 벗어나는 시스템 유지보수에 온갖 신경을 곤두세우는 정부 관행도 문제다. 데이터 전체 유통 경로를 파악하기가 불가능하다 보니 분절된 시스템에 대한 유지보수도 힘들어진다. 데이터가 코드(컴퓨터 프로그램) 속에 중구난방으로 섞여 있어 어느 것이 데이터인지 분간해내기 불가능하다. 따라서 시스템 튜닝을 하는 과정에서 코드를 잘못 건드리면 데이터까지도 건드리게 되는 화를 불러일으키는 불안을 안고 있다. 데이터 전문가에 따르면 행정망 먹통 사태의 가장 유력한 단서로는 첫째, 시스템 발주 컨트롤타워 없이 실·국별로 발주하는 그릇된 관행이 이어져 온 점과 둘째, 데이터 맵 없이 바로 코딩해 버리고 마는 고질적 행태가 지목되고 있다. 이런 가운데에서 공공 데이터 품질 개선 노력 없이 범정부 AI 플랫폼을 구축하거나 시스템 유지보수 관행을 변경해 본들 무슨 소용이 있을까. 정부 디지털 행정 장애 방지대책(조선일보 2024년 1월 31일자)을 봐도 데이터 품질에 대한 언급은 전혀 없이 시스템 유지보수에 초점을 둔 것들 위주다. 그 대책의 요지는 이렇다. 정부의 정보시스템을 관리하는 기관인 국가정보자원관리원 산하에 사이버장애지원단을 신설하여 먹통 사태 등이 또다시 재발했을 때 지원단이 이를 관리하는 태스크포스 역할을 한다. 앞으로 국가정보관리원이 중심이 되어 위험 징후 조기 판단과 시스템 안전성 진단 지원을 하겠다는 것이 골자다. 대책에 따르면 유지보수 체계를 개편하고 소프트웨어 구축에 대기업 참여를 허용하겠다고 한다. 그러나 시스템 유지보수에 초점을 두어서는 데이터 품질이 달라지기 불가능하다. 왜 그런가. 그 발표에 의하면 행정·공공기관이 보유하고 있는 정보시스템이 무려 1만7000여 개로 나타났다. 데이터 품질 관리를 위해서는 시스템 분절 현상이 더 이상 확대되지 않게 하는 데 초점을 두어야 한다. 이를 위해서는 시스템 발주 때부터 국가정보관리원이 국가 데이터 품질을 총 설계·관리하는 주체 역할을 해야 하는데 그게 아니라 유지보수에서 역할을 다하겠다는 것으로는 역부족이다. 정부의 주요 대책 중 다른 하나는 그간 금지돼왔던 대기업 참여를 전격 허용하겠다는 내용도 나온다. 그러나 대기업이 참여한들 달라질 가능성은 별로 없다고 본다. 최근 보건복지부 사회복지행정시스템에서 드러났듯이 대기업이 개발을 주도했음에도 시스템 먹통 사태는 재연됐다. 개발을 주도했던 대기업이 문제 해결을 위해 불철주야 노력해왔으나 6개월이 지난 뒤에도 해결 기미가 보이질 않았다. 그 대기업은 결국 사업 전체 중도 하차를 통보한다는 보도가 뒤따랐다(전자신문 2023년 5월 22일자). 대기업은 국가 정보시스템 사업에 이윤을 보고 들어가지 않는다는 말이 있다. 대기업이 개발을 주도하고 시스템 초기 안정화를 위해 대기업 측에 유지보수를 2~3년간 한시적으로 맡긴다 해도 유지보수는 대기업에는 큰 몫이 되지 않아 결국 결국 중소기업 손으로 유지보수가 넘어갈 수밖에 없는 구조다. 따라서 앞으로는 시스템 개발 시 참여 기업 규모보다는 데이터 품질 기준을 도입하고 데이터와 코드를 절대로 섞지 않고 철저히 분리하는 설계 철학을 준수하도록 강제하는 규정이 무엇보다 시급하다. 그다음으로는 중요도에 따라 정보시스템 등급을 나누는 일보다 더 급한 일은 불필요 데이터 중복률 개선에 초점을 둔 데이터 품질 기준이 국가 시스템 전반에 뿌리내리게 하는 일이다. 유지보수 체계를 개선하겠다는 정부 의지는 인정하지만 데이터 통합이라는 최하단이 허술한 상태에서 유지보수라는 최상단만 강화한다고 해서 데이터 품질이 개선될 수 없기 때문이다. 그러므로 국가 공공 데이터에 대한 진정한 주체 역할을 하는 곳에서는 다음 두 가지가 필수다. 첫째, 실·국별 시스템 분절 발주가 불가능하도록 발주 창구를 단일화해야 한다. 둘째, 분절된 수많은 시스템을 대폭 줄여 가볍게 만들어야 한다. 시스템 통폐합이 문제가 아니라 데이터 통합 과정이 문제의 핵심이라는 뜻이다. 과거 데이터 통합에 성공한 국내 모범 사례들도 여럿 있으니 심층 조사해 봐야 할 것이다. 시스템 통합에는 방법론이 있다. 그러나 시스템 통합 방법론도 데이터 중심적으로 돼 있지 않으면 무늬만 통합이지 데이터는 결국 따로 놀게 된다. 데이터가 중차대한 이 시대에 범정부 AI 플랫폼 설계 과정에 수준 높은 데이터 전문가가 포함돼 있었는지 국민들 앞에서 철저히 검증받는 과정도 필요할 것이다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수 2024-03-07 06:00:00
[문송천의 디지털 산책] 생성 AI '환각 현상' 막기 위한 직장 내 준비 작업의 첫걸음 [문송천 카이스트 경영대학원 교수] 챗GPT라는 생성AI 사용자가 작년 이맘때 1억명에서 지금은 1억8000만명으로 증가했다고 한다. 보기에 따라 다른 해석이 나올 수는 있겠으나 1년 사이에 이 정도 증가세면 세간의 관심에 비해서는 생성AI에 대한 반응이 그리 큰 것은 아니라고 평가할 수 있겠다. 역시 1년 전 일이지만 국내에선 윤석열 대통령이 챗GPT로) 신년사를 써보니 훌륭하더라고 말해 화제가 된 적이 있다. 그래서 정말 대통령 신년사를 작성해 달라고 해봤다는 것이다. 그랬더니 불과 10초 만에 기계가 만든 신년사가 나왔는데 국정철학을 가미한다면 제법 쓸 만한 초안이 될 것 같았다는 평가가 나왔다. 기계에 물어봤더니 그럴듯한 답변이 온전한 문장 형태로 제시됐다는 뜻인데, 여기서 주목할 점은 그 답변은 기계가 임의로 생각하는 과정을 거쳐 나온 게 아니라 빅데이터 학습 결과로 나온 것이라는 사실이다. 생성AI가 영상이나 이미지 인식 영역에서는 이미 신의 경지에 들어가 있는 상태다. 그렇다면 거기에 그치지 않고 인간과 유사한 생각과 문장 구사까지도 어렵지 않게 처리하는 것을 보면 도대체 기계에 무엇을 학습시켰기에 가능해진 것일까. 그것은 전적으로 학습 대상에 달려 있는 것이다. 사실 생성AI 첫 출현 시 사람들에게 거부감이 그리 크게 일지 않았던 데에는 그렇게 되도록 철저히 사전 준비한 배경이 있었다. 2023년 1월 18일자 타임지 독점 취재 보도에 의하면 오픈AI라는 회사가 챗GPT의 성공적 출범을 위해 그 기술을 세상에 공개하기 전 무려 1년여에 걸쳐 데이터 중에서 악성 데이터를 걸러내는 사전 작업을 대규모로 전개했다는 사실이 밝혀졌다. 그 여과 작업은 주로 빅데이터에서 데이터 등급을 분류 및 레이블링하는 것으로서 만일 수작업으로 할 경우 족히 10년 이상 걸릴 만한 분량의 빅데이터 집군에 대해 이뤄졌다고 한다. 동원된 인력은 영어가 가능한 케냐·우간다·인도 지역 인력으로 시간당 평균 2달러 이하의 저임금 처우를 받는 조건으로 후진국 현지에서 작업이 수행됐다는 것이다. 3교대로 하루 9시간씩 일했다고 하니까 고된 작업 치고는 1만5000원 정도의 일당을 받고 일한 것이다. 1가족 하루 1달러 생활권인 아프리카에서는 괜찮은 일당이라고 생각할 수도 있을지 모르지만 이를 두고 혹사당했다는 아프리카 현지 보도도 있었다(아프로테크 매거진 2023년 1월 26일자 보도). 이 프로젝트가 5만여 명의 생계가 달린 작업이었다니 동원 인력은 대략 2만~3만명 수준으로 추산된다. 그럼에도 불구하고 미국 빅테크 기업들이 이 프로젝트에 지불한 비용 전체 규모는 수억 원대에 불과했다. 이로 인해 저임금 불평등 문제, 더 나아가서 현지 인력들이 정신적 고통을 겪은 일들이 화제가 되기도 했다. 그런 인권 문제를 부각시켜 보기 위한 기획취재이기도 했으나 또한 동시에 우리에게 시사해주는 바는 AI에 학습시킬 대상을 준비할 때에는 이만큼 철저히 하지 않고는 출범 후 몇 달 안 가서 실패했을 것이라는 점이다. 따라서 조직 내에서 생성AI를 적용하여 성공하려면 적용 기업들은 최소한 무엇을 어떻게 언제까지 준비해야 할 것인지에 대해 준비하지 않으면 아니 될 것이라는 묵시적 경종을 던져주는 일이기도 했다. 우리나라를 보면 새로운 돌풍에 대한 관심이 대단하지만 사전 준비에서는 늘 미흡한 경우가 많은 편이다. 알파고 대국 당시를 한번 회상해보자. 언론 보도 횟수를 놓고 보면 한국의 열기가 영국보다 10만배 더했다. 생성AI 출현 이후 그에 거는 기대와 반응 역시 대동소이한 편이다. 이런 상황에서 우리가 기업에 생성AI 적용할 준비를 과연 제대로 하고 있는가 자문해보면 답은 그렇지 않다. AI에 정작 뭘 학습시켜야 하는지도 정확히 모르고 있으며 막연하게 들떠 있는 게 현장 실정이다. 어떤 조직이든 기업 업무에 AI를 적용하려면 자체적으로 가지고 있는 텍스트 자료를 반드시 AI에 쓸모 있을 형태로 다 뜯어고쳐야 한다. 그런 변환 과정을 제대로 거치지 않은 준비 미비 상태에서 AI 적용 후 발생한 AI 환각 현상에 대해서는 변명의 여지가 없는 것이다. 이른바 AI 환각 현상이란 이런 준비가 부족할 때 겪는 일이다. 일각에서는 AI 사용 준비에 오픈AI가 한 것처럼 데이터 레이블링 절차만 거치면 되는 것으로 이해하고 있으나 그건 오해다. 지금 국내 여러 곳이 눈에 띄기도 한다. 이미지 분석이라면 그 정도로 되겠지만 텍스트 분석에서는 훨씬 정교하게 준비해야 한다. 텍스트가 한글일 경우 특히 더 그렇다. 한글 문서를 영어로 기계 직역한다고 해도 소용이 없다. 기계는 ‘콩글리시’를 이해하지 못한다. AI는 기계다. 기계는 어떤 문장이든 글자 하나 틀리지 않게 정확히 묘사해주지 않으면 환각 현상을 자동으로 일으킨다. 텍스트 쪽에서는 AI는 마치 영어 구조에 특화돼 있다고 할 정도로 한글 구조와는 상극이다. 이에 대해 충분히 이해하려면 한글과 영문의 차이를 잘 알아야 한다. 독자 이해를 돕기 위해 아래 두 가지 예를 통해 간단히 살펴보겠다. 한 가지 오해를 불식시키기 위해 먼저 밝힐 것은 여기서 언급하는 한글 문서는 교과서처럼 국어 문법을 다 지킨 경우가 아니라 직장 내 통용되는 현장 문서를 가리킨다. 직장 내 한글의 장점이자 단점은 표현의 융통성 혹은 포괄성에 있다. 반면 그만큼 표현의 적확성이 떨어지는 경우가 많다. 첫째, 수식어의 경우다. 수식어를 쓸 때 수식의 대상인 명사가 뒤에 나타나고 수식어 자체는 명사 앞에 나오는 것이 한글 표현이다. 그런데 수식이 길어지면 수식어가 하나에 그치지 않고 두서너 개씩 여러 개가 있을 수 있다. 수식어 다음에 나오는 명사가 단 하나인 경우에는 명사 앞의 수식이 그 명사에 국한되지만 만일 명사가 하나 이상 나오는 경우는 명사들 앞의 어느 수식어가 어느 명사를 수식하는지 판단하기 힘들다. 반면 영어의 장점이자 단점은 융통성이 떨어지고 포괄적이지는 못하지만 문장 내 어느 부분이 어느 다른 부분을 수식하는 것인지가 매우 명확하다. 영어에서는 수식어가 길 경우 수식어는 반드시 명사 앞이 아니라 명사 바로 뒤에 나타나게 돼 있다. 그게 영어의 문법이다. 그래서 어느 형용사가 어느 명사를 수식하는 데 쓰이는 것인지 분명하다. 언어의 표현 능력은 물론 동등하지만 표현 적확도에서는 한글과 영어 간에 차이가 존재한다는 사실을 보여준다. 둘째는 동사 구사에 관한 것이다. 직장 내 문서에서는 '···처리하고 송부한다'는 식으로 처리라는 동사와 송부라는 또 다른 동사가 연달아 나타나는 경우가 많다. 이럴 경우에 ‘처리하고’라는 부분 앞에 나오는 내용을 보면 누가 무엇을 어떻게 처리하는지에 대해서는 정확히 묘사되어 있겠지만 ‘송부한다’에 대해서는 처리한 다음 누가 무엇을 어디로 어떻게 송부하는지에 대해서는 묘사가 생략되어 기계로서는 알 방법이 없게 된다. 이런 경우에는 기계는 앞에 나타난 동사인 처리의 주어를 송부의 주어로 삼고 처리의 목적어를 송부의 목적어로 잡는 수밖에는 도리가 없다. 따라서 묘사가 생략되는 바람에 기계가 오해할 여지가 발생하는 것이다. 환각 결과가 발생할 수 있다는 말이다. 영어는 문법상 동사가 두 개 이상 연이어 등장하는 걸 절대 허용하지 않는다. 위 두 가지 비근한 예는 쉬운 이해를 위해 제시한 것이지만 그게 전부는 아니다. 사실은 직장 내 문서를 AI 시대에 맞게 다 변환하고 대다수 조직의 경우 새로 마련하지 않으면 안 된다. 요약하면 일련의 업무 처리 행위가 일목요연하게 묘사된 업무기술서를 만들어야 한다. 업무지침서 같은 것으로는 어림없다. 이게 생성AI 준비 작업의 첫걸음이다. 금년 한 해는 생성AI의 시행착오를 공공기관을 비롯하여 여러 기업에서 많이 겪을 것으로 예견한다. 어느 제품이 한글에 특화돼 있다는 상술에 현혹된다면 큰 낭패를 볼 수도 있다. 어디서나 경영 압박을 경험하는 상황에서 누구의 말이 씨가 됐든 아니든 간에 철저한 준비 과정 없이 시류에 편승한답시고 그냥 달려들면 후회가 막심할 것이다. 기업의 경우에는 단순히 비용 낭비로 그치지 않는다. 누군가 회계상 책임을 져야 하는 일들이 벌어질 수 있다. 공공기관의 경우도 마찬가지다. 이대로 준비 과정을 미흡하게 하다가 연간 수조 원의 예산 낭비가 우려된다. 지금 섣불리 달려드는 공공 부문이 많기 때문이다. 감사원에서는 사실 이런 일을 방지하는 효율적 선제 감사를 실시하는 게 국민들이 원하는 바다. AI 예산의 경우 잘못 적용한 탓에 국세 낭비를 초래했는지에 대해 뒷북 치듯 추궁해본들 무슨 소용이 있을까. 시대는 디지털 감사를 건설적으로 할 것을 요청하고 있다. 사상 초유로 디지털감사국이라는 조직을 갖춘 감사원에서는 이걸 알았으면 한다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수 2024-02-06 06:00:00
[문송천의 디지털 산책] 데이터 비만도 높으면 조직 정보업무 마비된다 [문송천 카이스트 경영대학원 교수] 요즘 데이터가 무엇보다 중요한 자산이라고는 하지만 IT 강국이라는 우리나라 데이터 환경의 이면을 들여다보면 여전히 갈 길이 멀다는 평가가 지배적이다. 최근에는 국가행정전산망이 마비되는 사태가 예고도 없이 발생했다. 말이 국가행정전산망이지 국가 전산시스템이라고 부르는 게 더 적절할 만큼 종전 수작업을 기계로 자동화한 사무자동화 체계를 의미한다. 컴퓨터 망을 가리키는 낮은 수준이 아니다. 육법전서를 방불케 하는 이런 소프트웨어 체계의 가장 기초가 되는 것은 다름아닌 바로 데이터다. 소프트웨어란 컴퓨터 언어로 표현된 기계 명령이지만 명령이란 존재는 데이터라는 먹이 없이는 무용지물이기 때문이다. 따라서 명령보다도 더 기초가 되는 것이 데이터다. 컴퓨터 시스템이 작동되다가 먹통이 되는 이유는 여럿이지만 데이터 잘못인 경우가 많은 것도 그래서다. 하드웨어 잘못으로 서는 일은 거의 없다. 현대 사회에서 대부분의 업무는 정보시스템에 의존적이다. 시스템이 장애를 일으키면 작업이 중단되어 난리가 나게 마련이다. 그럴 때마다 정보시스템 운영 주체는 비난을 받는다. 이런 일은 끝없이 반복된다. 무장애 시스템은 마치 존재하지 않는 것처럼 보인다. 기술의 장애는 불가피하다는 생각이 지배적이다. 시스템 운영 주체에 대한 비난은 그래서 그냥 화풀이에 불과할 수도 있다. 그러나 진정한 전문가들은 이런 생각을 거부한다. 기술은 정확한 것이고 그래서 거의 완벽한 시스템 구축이 가능하다고 생각하는 편이다. 운영체계인 윈도가 쉽사리 꼬이지 않는 걸 봐도 그렇다. 컴퓨터는 본디 그렇게 만들어졌다. 그런 무장애 시스템을 만들기 위한 방법은 무엇보다 정교한 데이터 지도를 갖추는 것이다. 그게 정보시스템의 안정성을 좌우한다. 정부에 데이터지도가 없다는 말은 믿기 어렵다. 그러나 ‘정교한’이란 수식어가 붙으면 달라질 수 있다. 데이터지도는 있되 정밀하지 않을 수 있다는 의미다. 난개발로 지도가 통합적이지 못하고 누더기처럼 볼썽사납게 기워져 있을 수 있다는 뜻이다. 어떤 문제가 터졌을 때 수리 시한 관점에서 보면 과연 어떤 유형의 사고였는지 대개 추정 가능하다. 2~3시간 소요됐다면 하드웨어 문제라고 볼 수 있겠고 반나절 정도 걸렸다고 한다면 코딩 문제라고 보는 것이 정상이다. 그러나 만일 그 이상 끌었다면 해결하기 가장 어려운 부분에 해당하는 데에서 문제가 발생했을 것이라는 정황을 추정해 볼 수 있다. 이런 맥락에서 보면 전산에서 난도의 순서는 하드웨어, 코딩 명령, 그 다음이 데이터다. 전산시스템도 기계가 자동으로 만드는 건 결코 아니다. 사람 손을 일일이 거쳐 만들어지는 것이라 제작 상 기술적 난도도 데이터가 최고난도다. 요즘 하드웨어는 기계가 자동 제작해내고 코딩 또한 생성AI를 통해 70% 정도 자동 제작할 정도지만 데이터만큼은 기계가 도와줄 수 있는 영역 밖이다. 일일이 사람 손을 거칠 수밖에 없는 부분이라 데이터 설계는 사실상 예술에 가깝다. 데이터라고 하면 눈에 보이는 것은 아무거나 다 데이터인 것으로 착각할 수 있지만 사실은 데이터가 뭔지도 모르고 데이터라고 하는 이들이 많은 게 사실이다. 데이터를 제작할 때 가장 중요한 첫 단추는 데이터들이 돌아다닐 수 있도록 만드는 데이터 경로를 잘 설계하는 일이다. 이것은 마치 자동차가 잘 다닐 수 있게 도로교통지도를 만드는 일과 같다. 따라서 데이터 부분에서 장애가 일어나는 경우의 대부분은 데이터 경로가 잘못 설계되어 데이터를 찾아가던 도중 길이 막혀서 더 이상 진행하지 못하고 그 지점에서 시스템이 자동 정지되는 경우다. 데이터라는 걸 한마디로 딱 알아듣기 쉽게 설명한다고 하면 음식을 만들 때 사용하는 식재료에 해당한다. 그 식재료를 써서 완제품 요리를 만드는 것이 데이터 가공 과정이고 그건 컴퓨터 명령의 몫이다. 생선으로 말하면 횟감, 그게 바로 데이터다. 횟감이 튀겨지고 프라이팬에 요리되고 지지고 볶는 요리 과정을 거치면 그건 데이터가 아니고 정보라고 부르기 시작한다. 데이터라는 말을 굳이 쓰는 이유는 데이터가 다른 어느 것, 즉 정보 첩보 지식 보다도 원초이기 때문이다. 정보처럼 가공된 것은 데이터가 아니다. 횟감에서 파생되는 존재일 뿐이다. 그래서 횟감들 간의 관계를 정교하게 분석하지 않은 상태로는 데이터다운 데이터가 들어있지 않은 엉터리일 뿐이다. 클라우드(CLOUD)의 CL이 클래스, 데이터의 품격을 가리키는 것도 그런 연유다. 데이터의 품격을 지키라는 말은 품질 좋은 데이터 아니면 데이터로는 결격이라는 뜻이다. 그러니까 식재료인지 아니면 완제품 나오기 전 중간 상태의 요리인지 아니면 완제품인지 잘 분간할 줄 아는 지식이 필요하다. 사실 식재료 같은 경우에도 원재료가 굉장히 싱싱하고 좋으면 요리사가 초보라고 하더라도 요리가 맛있지 않은가. 우리 사회 전반의 공공 데이터 환경에서 데이터의 가장 큰 문제점은 품질 좋은 데이터만을 한눈에 볼 수 있게 하는 전체 데이터지도 한 페이지를 애초부터 제작해 놓지 않는다는 점이다. 데이터지도가 수백 수천 가지 조각으로 파편화되는 경우에는 데이터 간 충돌이 심해 불필요한 중복이 많아지고 누더기 덩어리처럼 처치 곤란한 상황으로 빠지게 된다. 그러니까 데이터지도란 한마디로 전국도로교통지도에 해당하는 것이다. 전국도로교통지도 없이 차 운전이 가능한가. 그런 데이터지도란 존재를 회사 내에서 본 적이 없다면 그 회사는 데이터 관리가 아예 안되고 있다고 보면 정확하다. 데이터 실력이 어느 수준인지는 다음 두 가지 질문으로 냉정하게 판가름 난다. 첫째는 데이터 개수가 과연 몇 개인가다. 데이터 볼륨이 아니고 성명, 주소, 연령 같은 데이터 이름의 개수를 얘기하는 걸 말한다. 그러므로 데이터 개수를 모른다면 그 조직 데이터는 엉성하게 설계돼 있다는 증거다. 그 다음에 던져야 할 질문은 데이터 중복률 산정이다. 우리가 인체에 불필요한 지방이 너무 많이 쌓이면 체지방률이 높아지듯이 데이터 지방률, 즉 데이터 비만도가 높으면 그 기업의 정보 업무가 마비되고 만다. 사람이 고지혈증 같은 것으로 쓰러지듯이 기업도 쓰러지는 국면으로 진입 가능하다. 그러므로 데이터 중복률을 자체적으로 계산해 본 적이 없다면 그 조직 데이터는 엉성하다는 또 다른 증거다. 위 두 가지 관점의 데이터 수준 평가는 조직 내 데이터 수준 전반을 점검해보자 할 때 적용할 수 있는 잣대이기도 하다. 기술적으로 정리하면 중복률은 최대 20%를 넘으면 데이터 설계는 엉망이라고 보면 된다. 그 선을 지키기 위해 데이터 표준형이 나온 지 벌써 60년이 됐다. 그럼에도 불구하고 표준화 이론을 무시하고 주먹구구식으로 정부 시스템이 구성돼 있는 게 문제다. 정부에 데이터지도가 없다는 말이 이제 이해가 될 것이다. 그러나 이걸 전문가 아닌 국민들이 알 도리가 없다. 그래서 과거에는 설령 속여도 그만이었다. 데이터 품질을 안 지키면 별의별 불상사가 다 일어날 수가 있다. 숨어있던 문제들이 수면 위로 올라와서 이번 행안부 사태처럼 큰 사고로 터져야 비로소 실체가 외부로 드러난다. 그래도 정부는 이번 사태처럼 어떻게 데이터 품질을 개선해야 하는지 모른 채 시간만 보내고 있다. 정부 주도로 클라우드 기반으로 전산 환경이 바뀌면서 데이터 재정비가 큰 숙제로 떠오르고 있다. 정부에 단일 통합데이터맵이 없는 까닭에 데이터를 클라우드로 있는 그대로 가져간다면 후폭풍을 감당할 길 없기 때문이다. 대구시만 예외적으로 모범 행보를 보이고 있다는 게 눈여겨볼 점이다. 대구시는 데이터 설계를 클라우드 시대에 걸맞게 다 뜯어고쳐야 한다는 생각으로 대대적인 작업 중이다. 쓸모없는 중복 데이터 과다 현상에 덧붙여 데이터 간 관계조차 제대로 파악되지 않아 데이터 오류가 빈번하다는 게 대구시 입장이다. 불필요한 데이터 제거가 최대 관건이라는 사실도 알고 있다. 대구시 디지털혁신관에 의하면 “지금 시스템은 구식 정보화 사업에 따른 거라 어떤 업체가 어떻게 설계했는지 모르는 경우가 많다”며 “클라우드 세상으로 넘어가기 전 선결과제는 대 시민 서비스 효율화를 할 수 있는 데이터품질 개선”이라며 데이터 개선에 대한 강한 의지를 밝혔다. 대구시와 다른 지자체가 달라야 할 이유는 없다. 정부나 다른 지자체는 대구시처럼 환경 변화에 호기심은 있는 시늉이라도 해야 하지 않겠나. 혁신을 DNA로 하는 디지털 정책을 다루는 고위직에 행정고시 출신들이 즐비한 것도 문제다. 왜 하필이면 행안부가 국가정보자원관리원을 관할 하에 두고 있을지 국민들은 이해하지 못한다. 재난 안전을 책임지는 부처 서열 때문일까. 구 시대 발상으로 행안부가 국가데이터 일체를 관리할 게 아니라 국가데이터 고위 책임자를 따로 두어 전문가로 하여금 국가데이터를 총괄하는 방향을 모색해야 할 것이다. 영국은 그렇게 해온 지 벌써 3년째다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수 2024-01-08 06:00:00
[문송천의 디지털 산책] 국가 안보 흔드는 행정망 마비사태 …진정한 해법은? [문송천 카이스트 경영대학원 교수] '행정망, 거의 데이터 쓰레기장 수준' '데이터 지도 없이 엉켜 있어 사고 또 나도 당연해'. 이런 뜨끔한 기사 표제를 우리는 지난 몇 주간 많이 봐 왔다. 왜 나라가 이 모양 이 꼴이 됐을까. 행정안전부가 국가의 주전원 역할을 함에도 불구하고 국가 통합데이터지도도 없이 여러 시스템을 운영하다 보니 그랬다. 앞뒤가 맞지 않는 해명을 연달아 내놓아 불신까지 더했다. 여러 군데서 발생한 후속 연쇄 사고도 모두 행정망에 연결돼 있는 것이다. 행정망이 켜지지 않으면 구동조차 안 되는 하위 종속 시스템들이다. 그러나 행안부는 사고 간 연계성을 현재까지 부인하고 있다. 고질적인 부인 강박관념에는 배경이 있다. 행정전산화의 형님 노릇을 총무처가 맡기 시작한 1980년대 초부터 최상위 주무 부처로서 자리매김한 데 있다. 그 당시는 컴퓨터 전문인력이 부족한 시기였고 명칭 자체가 안전’행정’부라 전산화 자문도 주로 행정학과 교수의 영역이었다. 현재 디지털플랫폼정부위원회 구성을 봐도 별반 바뀐 게 없을 정도니 잘못된 인선 관행이 뿌리 깊게 드리운 탓이다. 전산학과 교수가 그 위원회에 참관인 자격으로 갔다가 마치 외계인 취급받고 나왔다는 일화가 있을 정도다. 인의 장막이 촘촘하게 쳐진 원인은 어디서 찾을 수 있을까. 한국 사회의 보편적인 하드웨어 일변도 사고방식이 원인이다. 지난 30년간 과학기술부 혹은 정보통신부 식으로 불렸던 통칭 과기부에 반도체 혹은 통신 전문가들만 역대 장관에 기용된 걸 보면 이해가 갈 것이다. IT의 80%는 소프트웨어(SW)고 불과 20%만이 하드웨어(HW)다. HW 전문가들 사이에서는 HW가 반, SW가 반이라고 하는 이들도 있지만 여하튼 비중을 따지면 SW 쪽에 조금 더 기우는 편이라는 점은 공인된 사실이다. 예를 들면 F-35 전투기 가격이 무려 1조원에 이르는데 SW 가격만 그중 5000억원을 상회한다는 점을 보면 알 수 있다. 4차 산업혁명이 빅데이터 인공지능을 필두로 하는 것이고 이들이 HW가 아닌 SW라는 사실을 안다면 지난 30년간은 HW 전문가 위주로 이어져온 구태의연한 장관 인선 패턴이 달라지지 않는 건 희대의 불가사의 중 하나라 할 것이다. 산업구조도 영향을 미쳤다. 우리나라의 글로벌 시장점유율은 HW 대 SW가 20대 1 수준으로 말도 못하게 불균형이 심한 상태다. 절름발이다. 이로 인해 HW 핵인 반도체라도 선방하자는 마지노선 구축 의지가 지난 30년간 발로된 데 있다. 그 와중에 두뇌산업 SW는 안중에도 없었고 아직 첫 삽조차 못 뜬 불편한 과거가 있다. 그사이 세상은 SW 중심에서 데이터 중심으로 변해 데이터는 이제 제2의 석유로 불릴 만큼 선진국에서는 저만치 가 있다. 제2의 반도체 정도가 아닌 것이다. 벌써 우리와 격차가 상당히 벌어져 있는 상황이라 여기서도 막차 인생을 면하기 힘든 상황에 처해 있다. 이번 행정망 마비 사태 원인이 라우터 쪽에 있는 게 아니라 데이터 쪽에 있다는 결정적 단서가 사태 발발 후 불과 사흘 만에 잡혔다. 정부24에서 민원서류를 신청했더니 그 서류 외에도 다른 서류까지 한꺼번에 출력되는 엉뚱한 결과가 나왔다(전자신문 11월 20일자 1면 보도). 이건 라우터 오류와는 다른 것으로 두 번에 걸친 정부 해명과 달리 데이터 오류가 분명했다는 증거다. 이걸 알고도 정부는 하드웨어 오류였다고 항변하고 싶은가. 그렇다면 스스로 '컴맹'이라는 사실을 국민 앞에 자랑스럽게 자인하는 꼴 아닌가. 이런데도 정부가 희귀종 HW 오류였다는 결론을 황급하게 발표한 행안부의 자세를 어떻게 봐야 할까. 일단 넘어 가보자는 저의가 깔린 것이 아닐까. 혹시 국제 행사 유치 표결을 며칠 앞둔 상황에서 국격 이미지 훼손 악영향에 신경이 쓰였나. 정부 수준이 충격적이다. 이번 사태가 데이터 문제에 대한 경각심을 불러일으키는 계기가 된다면 불행 중 다행이다. 전국 도로교통 지도도 없이 차 사고 지점을 찾아내야 하는 상황을 한번 연상해 보라. 무슨 이유로 도로가 막혀도 우회할 방법도 몰라 사고 지점 찾다가 허송세월하는 꼴에 해당한다. 현재 행정망은 실·국별로 각개전투식으로 산발 발주돼 다른 업체가 서로 다른 시기에 만든 1440개 시스템이 통합데이터지도 없이 각자 돌아다니는 꼴이라고 보면 된다. 마치 간선 도로가 유실됐다 해도 그걸 모른 채 어디선가 한없이 헤매는 형국과 같다. 행안부에서 다루는 업무 전체를 보면 성명, 주소 등 데이터 항목 수가 전체적으로 기껏해야 2만개 이내 정도면 충분하고도 남는데 실상은 놀랍게도 현재 행정망 전체에 900만종 이상 잡동사니 수준 데이터로 엉켜 있어 심한 몸살을 앓고 있는 중환자 상태다. 말하자면 쓸데없는 잡동사니가 898만개씩이나 누더기로 군데군데 끼어 있단 뜻이다. 행정망 내부 데이터가 거의 쓰레기장 수준이라 코딩 프로그램이 데이터를 찾아가다 오류가 발생해 잘못된 답변 혹은 지연을 유발하고 있다. 언제 다시 사고가 나도 전혀 이상하지 않을 만큼 끔찍한 상태다. 현행 1000여 개 시스템을 단 1개 시스템으로 통합형으로 합치면 깨끗하게 해결될 수 있는 문제들이다. 단 4개월 내에 합치는 기술도 이미 나와 있다. 통합된 지도가 없다 보니 문제가 터질 때마다 졸속 해결책을 찾기 위해 벌어지는 진풍경은 이렇다. 컴퓨터 프로그램에서 접근하는 데이터가 어느 데이터인지 역추적해내는 후진적 방법이다. 기술적으로는 이를 역공학이라고 부른다. 데이터가 컴퓨터 코딩 프로그램의 먹이가 되는 게 정상 순리거늘 앞뒤가 완전히 거꾸로 돌아가는 진풍경이 펼쳐지는 것이다. 이는 현업에서는 비일비재하게 벌어지는 불편한 진실이지만 아무 문제 없을 때는 통상적으로 그냥 묵과되고 넘어가곤 한다. 그러나 상황이 돌변하여 대형 사고가 터졌을 때에는 반드시 역공학적 방법을 써서라도 기어이 데이터를 찾아내 그들 데이터 간 연관성을 파악해 파편 부위 데이터 경로를 응급으로 파악해내야 한다. 부위를 찾아내는 데는 빨라야 2~3일 소요된다. 작업 투입 인력은 부위 크기에 따라 달라지지만 이번 사태에 현업 인력 100여 명이 투입됐다는 사실을 토대로 역산해보면 행안부 1440개 전체 업무 중 아마도 수십 종 업무에 관련된 영역에서 데이터 꼬임 현상이 발생했을 것으로 추정된다. 문제 부위를 찾았다 해도 근본적으로 고치는 게 아니라 임시 응급 땜질 처방인 까닭에 잠복한 시한폭탄이 언제 다른 부위에서 돌연 또 터져 나올지 모르는 상황으로 전개될 수 있다. 정부는 공공 소프트웨어사업에 대한 대기업 참여 제한 제거를 해결책인 양 제시하고 있으나 그건 해법이 못 된다. 행정망 운용 기관들이 각 시스템 개발의 주요 내용도 모른 채 유지보수 업체를 1년 단위로 선정해 프로그램이 잘 돌아가게만 맡아 달라고 하는 게 현 제도인데 이런 구조에서 대기업이 참여한다고 한들 달라지는 건 없는 게 당연하다. 정부가 1440개 시스템을 차제에 일원화하여 단 1개 시스템으로 물리적 대통합을 하려는 진정한 해법은 강구하지 않은 채 태스크포스 구성을 여전히 HW 혹은 해킹 같은 이상한 방향으로 가져가고 있어 걱정이다. 그렇다면 문제를 어느 방향으로 풀어 나가야 할까. 우리는 민원서류 홍수에 갇혀 살고 있다 해도 과언이 아닌 세상에 살고 있다. 행정망은 사실상 민원서류망이라고 불러도 무방하다. 주민번호가 없기에 서류를 국민 개개인이 직접 뗄 일도 없는 해외에서 보면 한국은 단연 기이한 별종 나라다. 그들은 공직사회에서 필요하면 서류를 그때그때 직접 만들어 쓴다. 국민에게 손품 발품 파는 번거로운 일을 강요하지 않는다. 그래서 민원서류란 말 자체도 존재하지 않는다. 이 지점에서 반드시 짚고 넘어갈 게 있다. 첫째, 주민번호 주무 부처로서 행안부가 K-디지털을 과시하는 대신 해외처럼 민원서류 제거에 앞장설 생각은 없는지 묻고 싶다. 둘째, 데이터 시대에는 서류가 단순 문서에 그치지 않고 데이터가 살아 움직이는 터전이 돼야 한다. 행정 데이터라고 해서 데이터가 갖는 성격이 갑자기 달라질 이유는 없다. 그렇다면 행정 데이터 관리 혁신을 위해서라도 행정학 전문가에게 맡길 게 아니라 시대에 걸맞게 데이터 전문가에게 문호를 개방하는 방향으로 체질을 개선하는 게 4차 산업혁명 시대에 맞지 않을까. 국가 예산이 전반적으로 쪼그라드는 가운데서도 유독 디지털정부 해외 홍보만은 예외적으로 증액됐다고 한다. 민원서류 없는 해외에 나가 자랑할 만한 소재가 과연 있을지 의문이다. 외관보다 내실에 치중하여 국민 서비스와 안전의 질을 높이는 쪽으로 가야 한다. 데이터 부실은 공공 부문에 만연한 현상이다. 국방도 위태로워질 수 있다. 국방 데이터 품질 역시 매우 부실하다는 국방부 감사 결과도 있기 때문이다. 현대전은 데이터전이다. 따라서 정교한 데이터 기반 전술 없이는 전쟁에서도 승산이 있을 리 만무하기 때문이다. 문송천 교수는 1970년대 대학 진학 때부터 컴퓨터를 전공했다. 카이스트와 케임브리지대 교수(전산학과·경영대학원)를 지냈으며 Y2K 한국 대표를 역임했다. 슈퍼컴퓨터를 최초 개발한 미국 일리노이대학에서 전산학 박사를 1980년대 초 취득함으로써 국가 전산학 박사 1호가 됐다. 박사과정 때부터 클라우드와 블록체인 분야를 세계 최초로 개척한 소프트웨어 제1세대 학자로서 클라우드라는 용어 자체도 그가 1982년에 세계 최초로 창안한 3인 중 한 명이다(클라우드란 용어의 유래는 데이터 관리의 중요성을 알리기 위해 데이터라는 뜻과 동격인 CLass/Object/Ubiquity/Distributed - 이 네 단어 이니셜 다섯 글자로 1982년에 만든 것). 만 24세에 대학교수 생활을 시작하여 데이터베이스, 빅데이터, 블록체인, 정보 보안 연구를 통해 저서 22권, 논문 199편을 쓰고 박사 제자 30명을 배출하였다. <컴퓨터개론>이라는 한글 교과서(1975년) 최초로 저술하고 ‘DB엔진’ 아시아 최초 개발(1990년), 블록체인 SW엔진 세계 5번째 개발(1992년)을 비롯해 기업 데이터베이스를 효율적으로 설계·개발·운영하기 위한 ‘데이터 비만도’ 개념을 창시하는 등 세계를 놀라게 하는 공적을 남겼다. 국가정보시스템 구축에 기여하여 ‘금융FBI’ 역할을 하는 FIU 시스템을 설계하고 특허청, 한국방송 등에서 데이터 설계를 총괄 기술 지도했다. IT 후학 양성을 비롯하여 UNDP·UNHCR·Red Cross 재난 현장 전문가로서 아프리카·중남미·동남아·동유럽·팔레스타인 등 개발도상국 30여 개국 현지 봉사활동을 통해 IT 한국의 위상을 세계 만방에 알린 공로로 대통령에게 국가녹조훈장을 서훈한 바 있다. 현재는 대한적십자사 친선대사와 유럽IT학회 아시아 대표이사로 활동하고 있다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수 2023-12-13 06:00:00
[문송천의 디지털 산책] '골칫거리' 데이터.. AI는 죄가 없다 [문송천 카이스트 경영대학원 교수] 문제의 원인이 다른 데 있는데도 엉뚱한 곳에서 헤매는 일 혹은 일의 앞뒤와 경중을 가리지 못하는 어리석음 혹은 나무만 보고 정작 숲을 보지 못하는 일을 우리는 종종이 아니라 상시 겪으며 살고 있다. 이런 경우는 급변하는 정보기술(IT)분야에서 일반인들의 IT 전반에 대한 상식이 부족해 두드러지게 나타난다. 인공지능(AI)에서 문제가 되는 것이 무엇이길래 28개 주요국 참석 하에 세계 AI 안전 정상회의가 최근 영국에서 열린 것일까(2023년 11월 1일자 로이터 통신 보도). 컴퓨터 작동 원리에 대해 이해하려면 하드웨어 기본 원리와 소프트웨어 기본 원리를 모두 알아야 한다. 하드웨어 주요 장치로는 두 가지가 있다. 기억장치와 계산장치가 그것이다. 기억장치를 상용화한 것이 삼성전자가 주력 제품인 메모리 칩이며 칩 하나 안에는 무려 10억개 이상의 스위치(반도체 트랜지스터 형태)가 내장되어 구실을 하기 위해 매우 가느다란 (나노미터급; 1나노는 10의 -9승을 지칭)전기회선으로 연결된다. 회선 두께가 인간 머리카락의 3만 분의 1에 해당하는 수준으로 가늘다. 계산장치를 상용화한 것이 비메모리 칩으로서 이쪽에서는 인텔이라는 미국 기업이 강세를 보이고 있으며 삼성전자는 앞으로 제품을 개발하겠다고는 했으나 아직은 주력제품이 없는 상태이다. 계산장치를 시스템 칩으로 부르기도 하는데 그 근거는 그것이 하드웨어 세트(기억장치와 계산장치) 내에서 두 장치 간에 상호 협력 작용하게끔 만드는 역할의 ‘시스템 소프트웨어’와 연결고리, 즉 접점이 되기 때문에 ‘시스템’자를 따와서 그렇게 부른다. 이 시스템 소프트웨어가 그 위에서 돌아가는 본격적인 소프트웨어 법전(하드웨어를 구동하는 모든 규정(프로토콜) 세트)과 다시 연결되는데, 실내악단에 비유하면 기억장치 계산장치를 포함한 각종 하드웨어 장치들을 놓고 총체적으로 지휘자 역할을 수행하는 소프트웨어를 보통 운영체계(OS)라고 부르는 것이다. OS는 하드웨어 장치들이 쉬지 않고 바삐 활용될 수 있게끔 만들기 위해 다층구조 법전처럼 구성된다. 마치 사회를 효율적으로 운영하기 위해 헌법 민법 상법 형법 등이 필요하듯이 똑같이 그런 식으로 구성된다. 소프트웨어 구조가 인문학 중에서도 법학과 동일하다는 말이 나온 근거가 이것이다. OS 대표작은 마이크로소프트 제품 윈도스(Windows)와 구글 제품 안드로이드가 있다. OS로 할 수 있는 일은 문서작성 파일전송 등이다. 즉 데이터를 컴퓨터에 OS를 통해 집어넣을 수 있는 것이다. 그런데 데이터의 입자 단위가 쟁점이다. 문서나 파일은 데이터로 치면 덩어리가 크고 거친 작업이며 데이터를 잘게 그리고 세밀하게 다루고자 한다면 또 OS 상위에서 돌아가는 데이터베이스(Database; 약칭 DB)라는 기술을 도입하여 데이터설계 특수 기법을 써야 가능하다. 그러니까 학교에서 작은 집단의 데이터를 대상으로 실습할 때는 OS로는 충분하지만 대기업에서 데이터를 형성하고 데이터를 조작 가공하기 위해서는 DB엔진이란 소프트웨어 없이는 불가능하다. 그런데 이 DB엔진이 역할을 발휘하려면 사람이 데이터를 정형화해서 DB엔진에 먹이로 주어야만 한다. 즉 데이터 만드는 일은 사람 몫이지 기계는 데이터를 만들지 못한다. 이쯤에서 알아야 하는 점은 AI도 사람이 아니라 기계에 불과하기 때문에 데이터를 만들지 못하는 존재라는 것이다. 여기가 사람과 기계의 역할이 극명하게 구별되는 지점이다. 데이터를 설계(모델링)한다는 말은 데이터 관리를 질이나 속도 면에서 최적으로 하기 위해 데이터를 정형화하는 과정을 가리키는 것으로서 직조기 같은 것으로 장인 손으로 직접 짜는 것을 뜻한다. 데이터들 상호간의 관계가 도로교통 지도처럼 데이터 지도 형태로 꾸미는 것을 가리킨다. 문제는 이 세상에 정형화된 데이터가 20% 정도밖에는 되지 않아 세상에서 일컫는 대부분의 데이터는 정형화되지 않은 채 그대로 사용된다는 점이다. 이런 후자의 데이터들이 비정형 데이터로서 그것은 데이터 관리 효율성이라는 건 전혀 기대할 수 없는 수준 이하의 데이터 구조를 취하고 있다. 따라서 AI가 자신의 먹이로 받아들이는 데이터의 80%는 비효율적인 데이터들일 수밖에 없는 구조가 저절로 조성되는 것이다. 또 다른 문제는 AI라는 주제와 데이터 정형화라는 주제는 성격상 완전히 별개라는 점이다. AI에게 정형화된 데이터만 먹으라고 강요할 수만 있다면 바람직하지만 그건 불가능한 일이다. 만일 강요 가능하다면 AI 결과의 품질은 대거 개선될 것이 분명하다. 그러나 AI 안전정상회의에서도 그런 강요란 불가능하다. 기업들이 똑똑하다면 스스로 알아서 정형화 노력을 기울여야 할 뿐이라는 사실이 결정적 한계인 것이다. AI가 기업 데이터를 학습하겠다고 한다면 바로 그 순간부터 AI의 운명은 기업 손에 달려있다고 해도 과언이 아닌 것이다. 데이터 정형화 과정은 이렇다. 도로교통지도가 어느 지점에서 출발할 때 어느 출발점이 출발한 곳을 기준으로 보면 도로 경로 연관되는 곳들을 거쳐 나가 한바퀴 돌아서 자기 위치로 회귀하는 도착점이 되게끔 데이터설계도를 짠다면 4각경로가 형성되게 된다. A에서 출발하여 B로 가고 B에서 출발하여 C로 가고 C에서 출발하여 D로 가고 D에서 출발하여 원래 A로 오면 A에서 출발하여 A로 회귀하는 4각경로가 생기게 된다. 이런 4각경로가 존재하면 데이터 간의 연관성이 충실하게 묘사된 모습, 즉 DB 구조를 갖게 되며 그때에야 비로소 DB가 제작됐다고 부른다. 그러나 아무 4각경로 없이, 즉 돌아오는 회귀경로 전혀 없이 그냥 잔뜩 일방향으로 뻗어 나가기만 하는 설계는 편법 내지 위법 데이터 설계로서 DB라고 불러서는 절대로 안된다. 설계 원칙을 범법 행위 저지르듯 위반했기 때문이다. 데이터 품질을 최적 수준에서 유지하기 위한 최선의 방법으로서 등장한 4각경로 데이터 정형화 철칙과 세부 규범은 1975년에 나온 것이다. 그러니까 지금으로부터 무려 50년 전에 나온 것임에도 불구하고 이를 모르고 있다는 것은 전혀 배우려 노력하지 않아 결과적으로 무지 무식하거나 ‘될대로 되라’는 식 방임주의에서 비롯된 것이기 전에는 도저히 이해할 수 없는 대목이다. 4각이 형성되지 않을 때 온갖 심각한 부류의 데이터 오류는 마치 기다렸다는 듯 즉각적으로 등장한다. 답의 오류 혹은 답의 지연 문제 등으로. 그러니까 얼마 전 교육부 국가 시스템에서 시험지를 요청했더니 심지어 다른 학교 답안지가 나왔다는 오류 사례는 통상적인 수준의 오류인 것으로서 사실 이게 얼마나 해괴망측하고도 창피한 일인지에 대해서는 더 이상 말할 필요도 없는 것이다. 50년 전에 나온 기술을 외면하다 벌어진 대형 불상사에 대해 책임지는 이도 없는 것에 대해서는 도대체 어떤 설명이 가능할까. 말만 DB지 50년 전에나 가능했던 파일 구조를 지금도 구태의연하게 우리 회사에서도 여전히 채택하고 있다는 사실을 알고도 부끄럽지 않다면 그런 철면피가 또 어디 있을까. 그런데 문제는 세상에는 데이터 정형화 기본 원리에 무지하여 엉터리로 설계된 데이터들이 거대한 쓰레기 폐기장 산더미처럼 크고도 방대한 규모로 산재해 있는 것이 현실이다. 한마디로 기업들이 정형화에 무지하기 때문이고 또한 정형화를 위해 외주를 주는 게 관행이다 보니 외주업체까지 정형화를 제대로 하지 않아 결과적으로 데이터 품질이 말도 아니게 떨어지는 형편없는 데이터들이 기업 내에 보통 많은 게 아니다. 그러니까 여기서 알아야 할 점은 아무거나 데이터가 아니라는 사실이다. 정형화를 엉터리로 한 탓이다. 즉 데이터에 대한 감각 전혀 없이 무분별하게 아무거나 데이터로 둔갑시켜 데이터 통에 잔뜩 쌓아 놓은 탓이다. 연구결과에 의하면 세상 데이터의 절반은 이런 엉터리 데이터 천지다. 이런 엉터리들은 이해를 돕기 위해 인체에 비유한다면 아무 쓸모없는 과잉 체지방질에 해당한다. 이것은 생기지 않도록 데이터 설계 시에 미리 세심하게 신경써야 할 부분이며 만일 설계 실수로 생긴 것이 확인되는 순간 바로 없애는 것이 필요하다. 그렇지 않고 방치했다가는 엉터리 데이터 규모가 눈덩이처럼 커져서 급기야는 관리 불가능한 수준으로 진입할 수 있으며 그런 날에는 데이터관리 비용이 급상승하여 기업은 물론 공공조직에서 조직을 망가뜨리는 암적인 존재로 자리잡게 되며 그 조직의 운명은 퇴보 일로를 걷게 되는 신세를 면할 수 없다. 그렇다면 이런 데이터설계 실패가 AI 시대에 우리에게 던져주는 바는 무엇일까. 그것은 AI는 단순히 데이터를 먹이로 취하는 존재이지 데이터 품질을 개선하거나 데이터품질 관련하여서는 AI가 할 수 있는 일은 하나도, 즉 아무것도 없다는 사실에서 출발해야만 시사점을 발견할 수 있다. 혹자들이 현혹하는 식으로 이야기하는 말로는 AI가 데이터를 만들어 내기도 한다는 말이 대표적이다. 그러나 이는 낭설이다. AI는 데이터를 만들지 못한다. 만들어진 데이터를 단순히 가져다 먹을 뿐. 그러니까 AI가 가져다 먹는(쓰는) 데이터가 엉터리면 AI가 구해내는 결과물(이것은 데이터가 아니다!)도 자연적으로 조악할 수밖에 없는 것이다. 따라서 전 세계 데이터의 절반이 엉터리인 상황에서는 AI가 그런 품질이 조악한 데이터들을 갖다 써서 가공 처리 분석해낸 결과에 대한 신뢰도 역시 50% 이하라는 이야기가 그대로 성립되는 것이다. 그러므로 데이터가 골칫거리지 AI란 그저 컴퓨터 명령 덩어리(알고리즘 덩어리)일 뿐으로 데이터와는 상관이 없어 AI는 본디 골칫거리는 절대로 아니라는 사실을 이쯤이면 어느 독자도 이해 가능할 것이다. 그런데 왜 AI가 세계 사회 안전 정상회의에서 죄인으로 지목을 받고 있는 걸까. 그것은 완전히 데이터와 AI 간의 상관관계에 대한 무지에서 비롯되는 것이다. 컴퓨터 명령 덩어리를 ‘코드’라고 부른다, 코드는 컴퓨터 언어로 코딩된 결과물이기 때문이다. 이런 각도에서 보면 AI는 단순히 코드지 결코 데이터가 아니다. 컴퓨터 내에 존재하는 것이 데이터 부류에 속하는 것인지 코드 부류에 속하는 것인지를 전혀 분간할 수 없다면 그것은 마치 요리할 때 식재료와 요리법을 구분 못하는 것과 동일하다. 여기서 컴퓨터 작동에 비유하면 식재료는 데이터에 해당하는 것이고 코드는 요리법에 해당하는 것이다. 요리하려면 식재료를 어느 정도 가지런히 다듬어 깨끗하게 손질해 놓듯이 컴퓨터에서도 데이터는 적법하게 설계해 놓아야 쓸 수 있는 좋은 재료가 되는 것이다. 이런 적법 설계 과정을 거치는 일은 전혀 어렵지 않은 기본 중에 기본이다. 그럼에도 불구하고 세상에 적법 설계를 거치지 않고 그냥 원래 생긴 그대로, 다시 말하면 부적법하게 혹은 불법으로 코드에 의해서 사용되는 게 있다면 그건 데이터 자격조차 갖추지 못한 것이라는 점을 알아야 한다. 따라서 세계 AI 정상회의는 세계 데이터 정상회의로 명칭을 바꾸는 게 적절하다. 데이터 설계 소홀이 골칫거리지 AI가 골칫거리인 것은 절대 아니다. 데이터 시대를 산다고 입으로는 열심히들 하면서도 데이터 설계는 완전히 뒷전이고 데이터 초보 감각조차 전혀 없는 세태를 과연 어떻게 평가해야 될지 모르겠다. 돌이켜보면 인류는 컴퓨터가 등장한 이래 지난 80년간 사회 안전과 번영에 컴퓨터 혜택을 많이 누려왔다. 앞으로도 물론 그럴 것이다. 만일 컴퓨터가 사회 안전에 조금이라도 위험 요소를 불러일으킬 소지가 있다면 그것은 전부 데이터 쪽에 있지 절대 AI 쪽에 있지 않다는 사실을 망각하면 아니 될 것이다. 중요한 것은 어느 것이 데이터고 어느 다른 것이 코드인지 분간하는 능력이다. 데이터가 코드(AI 포함) 이전의 선행 사안이라 코드보다 더 중요하다는 점을 알아야 컴맹 수준을 벗어날 수 있다. 그러므로 데이터 관리, 더 정확하게는 데이터가 최적으로 동시에 효율적으로 운용되기 위해서는 반드시 데이터 모델링에 만전을 기해야 할 것이다. 그렇지 않다면 어느 조직이든 데이터 시대에 낙오자 또는 실패자로 전락할 것이다. 지난달에 나간 디지털 산책 '공공데이터 부실, 밑빠진 독 혈세붓기' 칼럼을 보고 행정안전부 디지털정부실 공공데이터국장으로부터 연락이 왔다. 국가(대통령실)에서 국가 데이터맵을 만들려고 하는데 전문가 면담을 요청한다는 내용이었다. 만나보니 데이터맵 구축에 대한 의지를 확인할 수 있었다. 과연 전문가 지도를 제대로 받아 역대 수준급 국가 통합데이터맵을 만들지 아니면 무늬만 그런 구태의연한 졸속 데이터맵으로 귀결될지는 지켜봐야 알겠지만 차제에 다시는 국가재난안전시스템이라든가 사회보장복지시스템 혹은 교육정보시스템이 먹통이 되거나 오류가 나는 사고가 없는 세상이 되기 위해서는 국가데이터플랫폼 내 통합데이터맵을 제대로 설계(데이터 정형화)해야 될 것이다. 요즘 지방 활성화 및 차별화 추세에 맞춰 각 지자체마다 자체 대 시민 서비스 데이터플랫폼 구축은 물론 AI를 표어로 삼는 곳들이 우후죽순처럼 많이 생겨나고 있다. ‘AI 고등학교’도 대거 출범할 것이라고 한다. 이 글을 읽고 AI가 문제의 근원이 아니라는 점을 안다면 AI고보다는 이 세상의 데이터 품질 혁신을 위해 대신 ‘데이터고’를 세우는 편이 도움이 될 것이다. 문송천 교수는 1970년대 대학진학 때부터 컴퓨터를 전공했다. 카이스트 및 케임브리지대 교수(전산학과 및 경영대학원)를 지냈으며 Y2K 한국대표를 역임했다. 슈퍼컴퓨터를 최초 개발한 미국 일리노이대학교에서 전산학박사를 1980년대 초 취득함으로써 국가전산학박사1호가 됐다. 박사과정 때부터 클라우드와 블록체인 분야를 세계 최초로 개척한 소프트웨어 제1세대 학자로서 클라우드라는 용어 자체도 그가 1982년에 세계 최초로 창안한 3인 중 하나다(클라우드란 용어의 유래는 데이터 관리의 중요성을 알리기 위해 데이터라는 뜻과 동격인 CLass/Object/Ubiquity/Distributed - 이 네 단어 이니셜 다섯 글자로 1982년에 만든 것). 만 24세에 대학교수 생활을 시작하여 데이터베이스, 빅데이터, 블록체인, 정보보안 연구를 통해 저서 22권, 논문 199편을 쓰고 박사제자 30명을 배출하였다. <컴퓨터개론>이라는 최초의 한글 교과서(1975년), ‘DB엔진’ 아시아 최초 개발(1990년) 및 블록체인 SW엔진 세계 5번째 개발(1992년) 및 기업 데이터베이스를 효율적으로 설계/개발/운영하기 위한 ‘데이터 비만도’ 개념을 창시하는 등 세계를 놀라게 하는 공적을 남겼다. 국가정보시스템 구축에 기여하여 ‘금융FBI’ 역할의 FIU시스템 설계, 특허청, 한국방송 등에서 데이터 설계를 직접 총괄 기술 지도했다. IT 후학 양성을 비롯하여 UNDP/UNHCR/Red Cross 재난 현장 전문가로서 아프리카 중남미 동남아 동유럽 팔레스타인 등 개발도상국 30여 개국 현지 봉사활동을 통해 IT 한국의 위상을 세계 만방에 알린 공로로 대통령으로부터 국가녹조훈장을 서훈받은 바 있다. 현재는 대한적십자사 친선대사 및 유럽IT학회 아시아대표이사로 있다. 문송천 필자 이력 ▶카이스트 경영대학원 교수 ▶미국 일리노이대(어바나 샴페인) 전산학 박사 ▶유럽IT학회 아시아대표이사 ▶대한적십자사 친선홍보대사 ▶카이스트/케임브리지대/에든버러대 전산학과 교수 2023-11-10 06:00:00
[문송천의 디지털 산책] 기초공사 부실한 '공공데이터' 통합…밑빠진 독 혈세 붓기 [문송천 교수] 공공 정보시스템의 성능과 품질이 문제다. 올 10월 국정감사에서 이 문제가 집중 추궁될 것으로 아래와 같이 보도됐다 (2023년 10월 4일 기사). 수천억 규모 공공SW 사업, 국감 핫이슈 '부상' 행안위·교육위·보건복지위, 차세대 시스템 오류 등 집중 추궁 예상 이해를 쉽게 돕기 위해 예를 들면 교육부에서 컴퓨터로 일을 처리하는 과정에서 중등학교 교사가 시험지를 검색했더니 다른 학교 답안지가 출력됐다는 것이다. 왜 이런 어처구니없는 일이 벌어질 수밖에 없는 것일까. 더 심각한 문제는 이런 중대 오류가 교육부에 그치지 않고 최근에만도 여러 정부 부처에서 발생했다는 사실이다. 이런 시스템 개발하는 데는 적어도 각 시스템마다 수천억원 내지 수조원씩 소요된다(행안부 재난안전통신망은 1조4000억원, 보건복지부 사회보장정보시스템은 3496억원, 교육부 교육행정정보시스템은 2800억원). 밑빠진 독에 물붓기 식으로 백성들 고혈이 낭비되는 일이 벌어지고 있는 것이다. 이런 와중에 연말이 얼마 남지 않은 이 시점에서 세수가 금년에만도 59조원이 덜 걷힐 것으로 추산 전망됐다. 유감스럽게도 사상 최대다. 반도체 불황 요인이 크다. 세계적으로 반도체 한파가 있기도 하지만 한국 반도체가 사실은 대만에 밀려 수출이 대폭 줄어든 것이라 앞으로도 반도체가 경기 회복에 얼마나 기여할지는 두고 볼 일이다. 반도체 하강 국면 배경은 디지털 분야 국가 청사진이 부재한 탓이 크고 기업 역시 하드웨어 일변도 사고방식에서 벗어나지 못한 채 소프트웨어 시대에 대비하지 못한 탓이 크다. 소프트웨어 약세를 개선하려는 의지 없이 근시안적으로 하드웨어에만 혈안이 돼 왔고 이런 관행은 고질병처럼 굳어져 버렸다. 당장 세수 59조원 부족을 메울 방도를 찾지 않으면 국가 재정 파산 상황에 이를지도 모르게 됐다. 게다가 반도체는 현 추세대로 간다고 가정하면 향후 10년 내에 중국이 패권을 잡을 것이 거의 확실시되어 전망은 어둡기만 하다. 따라서 차제에 국가 운영에 비효율적인 요소들을 찾아내 혈세 누수 요인을 줄여 나가는 것도 매우 긴요한 시점이다. 이런 누수 요소 중 눈에 잘 드러나지 않는 것이 디지털 관련 예산이다. 컴퓨터를 통한 사무자동화 내지 정보화 과정에서 새나가는 돈이 많다는 점도 겉으로는 잘 나타나지 않는 부분이다. 문제는 지자체들이 데이터 서비스에서 다루는 데이터 인프라가 품질 면에서 좋지 않아 정보시스템 대부분이 잘못 설계돼 있어 시스템 유지보수 비용이 과다하게 지출되고 있는데다 그런 허술한 기반 위에 사상누각 식으로 무슨 빅데이터 서비스니 생성AI 서비스니 하면서 지자체 간에 경쟁을 벌이고 있어 예산 누수가 증폭되고 있다. 데이터가 엉망이면 어떤 디지털플랫폼도 실패할 수밖에 없다. 플랫폼에서 데이터 기초 인프라가 시스템의 가장 기초공사인데 그게 부실한 상태에서 그 위에서 뭘 해본들 사상누각이 될 수밖에 없는 이치다. 지자체 및 공공조직(정부부처 포함)에서는 이런 데이터 기초 부실 문제를 먼저 고치고 난 후 빅데이터 생성AI 등을 적용해도 전혀 늦지 않는데 순서가 완전히 뒤바뀌다보니 배가 산으로 향하는 격이다. 요즘 생성AI에 대한 관심들이 일반 대중 사이에서도 고조되고 있어 이를 예로 들어 설명해 보겠다. 데이터 품질 관리 부실로 인해 현행 통용 데이터의 절반이 엉터리라는 사실을 전제로 들어가보자. AI는 데이터를 가져다 쓰기만 하지 데이터를 창작해내는 존재는 결코 아니다. 창작은 기계가 흉내낼 길 없는 인간 고유의 영역인 까닭이다. 데이터의 품질 조잡으로 그들 데이터를 가져다 쓰는 AI가 할 수 있는 일도 극히 미약할 수밖에 없는데도 이를 간파하는 전문가조차도 없이 만일 AI를 활용한 대 시민 데이터 서비스에 들어가겠다고 한다면 예산 누수를 막기는 불가능하다는 이야기다. 즉 AI 결과 신뢰도가 작금에 심각하게 문제시되는 것도 원인은 AI의 먹이인 데이터 자체의 품질이 시원치 않아 생기는 것이다. 절반 데이터 무용지물 현상 때문에 생성AI가 만들어내는 결과의 신뢰도까지 역시 어쩔 수 없이 50% 이하로 떨어질 수밖에 없다는 사실을 알아야 한다. 지자체마다 데이터 통합이 중요하다는 말은 요란스럽게 하고 있다. 뭐가 중요한지는 공직사회도 이미 잘 알고 있다는 방증이다. 그러나 정작 데이터 품질 개선에 대한 기술적 실천 노력 하나도 없이 데이터 통합 중요성을 입으로만 외치고 있는 공직사회 고질병 또한 데이터 품질 개선을 가로막는 큰 걸림돌이 되고 있다. 공공기관(정부부처 포함) 정보시스템에서도 실제 물리적 통합 아닌 무늬만 통합으로 그쳐 이로 인한 예산 누수는 연 10조원을 넘을 것으로 추산되고 있는 막중한 실정이다. 국가 1년 총예산 650조원 중 수십조원이면 결코 작은 규모가 아니지 않은가. 이런 규모 손해를 초래하는 사건이면 기술적 범죄 행위에 해당하는 중대사고로서 누군가 책임을 져야 할 일이나 마치 아무런 일도 없었다는듯 태연스럽게 그냥 넘어가는 관행은 단죄를 받아야 할 사인이며 따라서 중벌로 다스려야 마땅한 일인 것이다. “소프트웨어는 하드웨어와는 달리 눈에 보이지 않아 그럴 수밖에 없지” 식으로 넘어가거나 “조직 컨트롤 타워의 부재야” 식으로 자위하는 공직 사회의 관행을 놓고 ‘철밥통’이라고 불러도 할 말이 없을 것이다. 어느 조직마다 소위 ‘디지털 혁신국’이 설치돼 있고 따라서 담당 국장이 책임자로서 존재하거늘 누구도 책임지지 않는 이런 풍토를 국민들은 어떻게 보겠는가. 단적인 예로 서울시 같은 지자체 케이스를 보자. 공직 사회는 특히 과거 관행에 대한 자기부정이 매우 힘든 섹터라 잘못된 시스템 유지보수에 예산 누수가 형언할 수 없을 정도로 심할 수도 있다. 서울시 같은 큰 지자체 경우도 예외가 아니다. 서울시는 시 정보시스템(각 실·국 별로 보유한 것 다 합치면 총 240개에 달함)의 데이터 품질을 개선할 경우, 유지보수비로 연 수억원 이내면 충분할 것에 대해 무려 연 수백억원 규모를 지불하고 있는 실정으로 추정된다. 낭비 치고는 그야말로 충격적인 규모에 해당한다. 그런데 문제는 서울시 자체가 이를 모르고 있다는 사실이다. 이런 규모면 무려 최적 예산 규모의 100배에 달하는 예산 낭비에 그치지 않고, 더욱 심각한 일은 이런 조악한 수준의 불량 데이터를 먹이로 돌아가는 디지털 플랫폼 인프라(빅데이터 플랫폼 및 AI 플랫폼) 구축에 들어가는 비용으로서 대략 1000억원 정도까지도 아무 효용 없이 밑빠진 독 물붓기 식으로 자동 낭비될 수밖에 없는 수순으로 이어진다는 이야기다. 이는 서울시만의 문제는 아니다. 데이터 물리적 통합 설계가 전혀 안 돼 있고 시스템들이 공간적으로 격리된 격납고(Silo)처럼 실·국 별로 각기 따로따로 돌아가고 있고 따로따로 유지보수되고 있는 점은 어느 지자체에서도 똑같다. 혈세 누수는 불을 보듯 뻔하다. 영국에서는 이런 누수 문제를 수없이 겪고 난 후 원천적으로 누수 원인을 제거하기 위해 국가회계청이 직접 나서서 문제를 국가정보시스템 개발 초기부터 차단하고 있다. 국가회계청이 데이터 통합 여부를 사전 및 상시 점검하는 주체로서 책임을 다하고 있는 것이다. 데이터 통합이 안돼 있다는 의미는 데이터가 왔다갔다 하는 길이 요소 요소 막혀 있는 상태라고 보면 된다. 한마디로 전국 도로교통지도 같은 역할을 하는 전사 '데이터지도'가 정보시스템 속에 들어있지 못하기 때문에 데이터 동맥경화 현상이 벌어지는 일이다. 이 문제를 해결하려면 원천 데이터를 재설계하는 노력을 통해 조직 전체 관점의 단일 통합데이터맵을 확보해야 한다. 서울시의 경우, 240개 분산 단절된 시스템을 갖고 있어 데이터까지도 자동으로 240군데에 분절돼 있다. 충격적인 사실은 서울시의 경우 데이터속성 (attributes)수가 무려 220만개에 달한다는 사실이다. 세계 최대 데이터 기업 월마트(Walmart)도 속성 수가 전체 2만개 이내인데 이게 도대체 말이 되는가. 월마트 데이터 볼륨은 현재 40PB(페타 바이트는 10의 15승)에 달할 정도로 방대하나 전체 속성 수는 단 2만개 이내라는 사실을 참고하자. 서울시의 정보시스템 방만 데이터설계 실태를 보면 데이터 아닌 것들이 데이터로 편법 둔갑하여 데이터 광주리에 가득 들어가 있다는 뜻이 된다. 220만개 중 218만개는 엉터리 쓰레기 데이터인 것이다. 서울시의 경우, 계산해보면 서울시가 불필요한 속성 중복을 무려 1만900%나 갖고 있는 것이다. 1만 퍼센트! 3만개 또는 4만개 정도라면 ‘애교’로 봐 줄 수도 있겠지만 10만개 이상이라는 건 중대 범죄급이다. 서울시만에 그치지 않고 어느 지자체 및 정부조직도 결코 예외가 아니라는 점을 알면 세수 부족으로 인한 문제를 해결할 수 있는 실마리를 찾는 데 상당히 큰 도움이 될 것이다. 이런 데이터 인프라 리모델링을 통한 국가 정보시스템 관련 예산 누수 현상 근절은 작금의 대통령실 카르텔 파괴 못지않게 중요한 국가적 과제다. 한국뿐만아니라 다른 나라에도 필요한 것이라는 점에서 세계만방을 향해 디지털 권리장전을 준비하여 국제 사회에 천명하겠다는 대통령실에서도 참고할 만한 가치가 충분히 있을 것이다. [1] 문송천 교수는 1970년대 대학진학 때부터 컴퓨터를 전공했다. 카이스트 및 케임브리지대 교수(전산학과 및 경영대학원)를 지냈으며 Y2K 한국대표를 역임했다. 슈퍼컴퓨터를 최초 개발한 미국 일리노이대학교에서 전산학박사를 1980년대초 취득함으로써 국가전산학박사1호가 됐다. 박사과정 때부터 클라우드와 블록체인 분야를 세계 최초로 개척한 소프트웨어 제1세대 학자로서 클라우드라는 용어 자체도 그가 1982년에 세계 최초로 창안한 3인 중 하나다(클라우드란 용어의 유래는 데이터 관리의 중요성을 알리기 위해 데이터라는 뜻과 동격인 CLass/Object/Ubiquity/Distributed - 이 네 단어 이니셜 다섯 글자로 1982년에 만든 것). 만 24세에 대학교수 생활을 시작하여 데이터베이스, 빅데이터, 블록체인, 정보보안 연구를 통해 저서 22권, 논문 199편을 쓰고 박사제자 30명을 배출하였다. ‘컴퓨터개론’이라는 최초의 한글 교과서(1975년), ‘DB엔진’ 아시아 최초 개발(1990년) 및 블록체인 SW엔진’세계 5번째 개발(1992년) 및 기업 데이터베이스를 효율적으로 설계/개발/운영하기 위한 ‘데이터 비만도’ 개념을 창시하는 등 세계를 놀라게 하는 공적을 남겼다. 국가정보시스템 구축에 기여하여 ‘금융FBI’ 역할의 FIU시스템 설계, 특허청, 한국방송 등에서 데이터 설계를 직접 총괄 기술 지도했다. IT 후학 양성을 비롯하여 UNDP/UNHCR/Red Cross 재난 현장 전문가로서 아프리카 중남미 동남아 동유럽 팔레스타인 등 개발도상국 30여 개국 현지 봉사활동을 통해 IT 한국의 위상을 세계만방에 알린 공로로 대통령으로부터 국가녹조훈장을 서훈받은 바 있다. 현재는 대한적십자사 친선대사 및 유럽IT학회 아시아대표이사로 있다. 2023-10-12 20:17:57

이전1다음

아주경제

(주)아주뉴스코퍼레이션정기간행등록번호 : 서울 아 00493등록일자 : 2008년 01월10일제호 : 아주경제회장·발행인·편집인 : 곽영길 주소 : 서울특별시 종로구 종로 1길 42(수송동 146-1) 이마빌딩 11층발행일자 : 2007년 11월 15일청소년보호책임자 : 한준호전화 : 02-767-1500 아주경제는 인터넷신문 위원회 윤리강령을 준수합니다 아주경제의 모든 콘텐츠(기사)는 저작권법의 보호를 받으며, 무단전재, 복사, 배포 등을 금지합니다. Copyright ⓒ 아주경제 All rights reserved.

runtime:0.04555(sec)