데이터기반 행정체계 구축, 자연어처리·빅데이터 기술이 필수

NIA 디지털정부 이슈리포트, 텍스트마이닝 방법론 소개
데이터3법 개정, 공공부문 빅데이터 활용가능성 높여줘
전처리 단계의 중요성 강조…"전체 작업 60~80% 차지"
조달청 나라장터 현황, 경찰청 사건기록 분석사례 소개

[사진=게티이미지뱅크]

정부가 정책 발굴과 시행에 데이터를 활용하는 '데이터기반 행정체계' 구축을 예고한 가운데, 구체적인 추진방안으로 인공지능(AI) 관련분야인 자연어처리(NLP) 방법론과 빅데이터를 비롯한 데이터 수집의 전문가가 필요하다는 조언이 나왔다.

23일 한국지능정보사회진흥원(NIA) 디지털정부 이슈리포트 '데이터기반 과학적 행정을 위한 데이터마이닝 방법론 및 유의사항'에 따르면 데이터를 활용한 데이터기반 행정체계 구축에는 빅데이터기술이 필수 요소다.

NIA는 공공기관간 보유 데이터를 활용해 사회적 위험과 문제점의 사전예측, 예방이 가능해질 것이라 전망했다. 이를 통해 시민을 위한 행정서비스 품질을 높이고 '데이터기반 과학적 행정 시대'를 열 수 있다고 기대했다.

이를 위해 행정안전부는 작년 6월 9일 '데이터기반행정 활성화에 관한 법률(데이터기반행정법)'에 따라 공공기관별로 별도 관리하던 데이터를 상호 연계·활용할 수 있는 '데이터통합관리플랫폼'을 12월 10일부터 구축했다. 국방, 통일, 외교 등 법률에 의한 비밀이 아닌 데이터는 다른 공공기관이 요청시 제공해야 하는 의무가 공공기관에 부과됐고, 데이터 제공 거부 사례에 대한 조정기구 역할과 데이터기반 행정 활성화 기본계획을 심의하는 민·관 '데이터기반행정활성화위원회'가 출범했다.

관련기사

법·제도 변화로 공공부문의 빅데이터 활용 가능성은 과거보다 커진 상황이다.

작년 '데이터 3법(개인정보보호법·정보통신망법·신용정보법)' 개정으로 가명데이터 활용이 가능해졌다. 보고서는 다만 "데이터 조작과 재식별을 통한 개인정보 악용가능성이 존재하고 빅데이터를 활용한 분석 결과값이 항상 참일 수는 없음"을 인식할 것을 주문했다. 또 개정된 법으로 개인정보가 들어간 데이터를 비식별화 데이터로 치환한 '가명정보' 개념을 도입, 통계작성·연구 등 목적에 활용이 가능해져, 신산업육성과 공공부문 활용가능성이 증가할 것이라고 내다봤다.

텍스트마이닝 주요 연구분야. [자료=NIA 보고서]

NIA는 이제 실질적인 데이터기반 행정체계 구축 전략이 필요하다고 지적했다.

공공부문 빅데이터 도입시 기술적 고려사항으로 목적에 맞는 데이터 수집이 중요하다고 조언했다. 특히 "수집된 데이터 정제작업을 위해 상황에 알맞는 NLP 방법론이 중요하며, 실시간 생성 데이터 품질관리가 필요해 데이터관리 전문가도 배치해야 한다"면서 "시간·비용을 절감을 위해 적은 데이터셋을 구축해 인과관계를 파악하는 선행작업이 필수"라고 강조했다. 또 "무계획적 데이터수집시 원하는 결과값을 얻지 못할 확률이 높다"며 "이는 분석 실패의 지름길"이라고 경고했다.

NIA는 텍스트 데이터를 분석하는 기본 방법론 '텍스트마이닝'을 소개하고, 이를 위한 데이터 수집, 관리, 처리시 유의사항을 제시했다. 텍스트마이닝은 대량의 구조화되지 않은 자연어에서 정보를 수집하고 NLP를 활용해 원하는 데이터를 추출, 이전에 알려지지 않았던 통찰을 발견하는 기법이다. 연구방법에 따라 문서분류, 정보검색, 문서군집, 정보추출 등 분야로 나뉜다.

우선 데이터처리 방법론 가운데 수집단계의 고려사항으로 '외부 데이터 환경의 특이사항' 파악과 '저작권 침해여부' 확인이 필요하다. 인터넷 웹사이트에 공개된 정보는 웹 수집기, 오픈API, HTML태그 정보 활용, 사람의 웹사이트 접속 동작을 모사한 프로그램 제작 등 기법으로 수집 가능하다. 수집된 데이터에서 중복 데이터를 제거하고 포맷을 일관되게 하며, 분석 정확도 향상을 위해 데이터 쏠림이 없는 대칭화·균형화를 고려해야 한다.

수집된 대용량 데이터를 관리하기 위해서 분산시스템 기반의 저렴한 데이터 분석 솔루션으로 '하둡'을 소개했다. 이를 구축할 때 IT인프라에 대한 이해, 리눅스 명령어 사용법, 분산 환경 설정 등 지식을 갖춰야 한다는 조언과, 권한이 없는 데이터를 수집시 그 복제행위로 인한 저작권 침해 가능성이 있음을 인식해야 한다는 경고가 이어졌다. 국내법상 영구적 데이터 복제뿐아니라 일시적 복제가 발생한 경우에도 저작권법상 '복제'에 해당한다고 보고서는 설명했다.

정형데이터 변환(전처리)이 중요도 높은 단계로 묘사됐다. 이는 비정형 데이터를 분석 가능한 데이터로 정제하기 위해 NLP 기법을 활용하는 과정으로, 빅데이터 분석의 모든 공정 중 가장 많은 시간, 인력, 비용이 소모된다는 설명이다. 보고서는 "비정형 데이터 종류와 형태에 따라 전체 공정 대비 전처리에 60~80%의 작업이 필요하다"며 "언어의 종류와 형태(굴절어, 교착어, 고립어, 포합어 등)에 따라 문법이 다르므로 상황에 맞는 NLP 방법이 필요하다"고 강조했다.

데이터로부터 통찰을 얻기 위한 예측 모델 제작 방식에 대한 설명이 이어졌다. 문서에 존재하는 단어나 문장을 활용해 중요 의미가 있는 단어를 추출하는 '키워드 추출', 문서·문장·단어 등에서 긍정·부정에 대한 감정을 추측하는 '감성분석', 문서 간의 차이·유사함을 분석하는 '문서유사도 판별', 비슷한 데이터를 묶는 '군집분석' 등 모델별 특징과 고려사항이 제시됐다.

조달청 나라장터 계약현황 분석 대시보드. [자료=NIA 보고서]

정부는 이같은 NLP 방법론을 포함한 빅데이터·텍스트마이닝을 어떻게 활용했을까.

조달청은 5만여 공공기관과 32만여 조달업체가 이용하고 전체 공공조달 60%인 70조원 규모 계약을 체결하는 '나라장터'의 조달업무를 효율화하기 위한 '빅데이터 기반 조달업무 의사결정 지원시스템 구축'을 추진했다. 이 사업을 통해 조달업무 중 입찰, 낙찰, 계약 데이터를 분석해 대시보드 형태로 나라장터 종합분석서비스를 제공하고, 이 데이터로 발주기관의 의사결정 효율화와 조달업체 경쟁력을 강화했다.

경찰청 범죄분석시스템(SCAS) 데이터를 활용해 민생치안을 강화한 성과도 있다. 미제사건과 동일범의 여죄판단이 어려운 범죄를 분석하기 위해 국가정보자원관리원과 경찰청이 SCAS의 2016~2017년도 임장일지(수사관이 사건발생장소에서 사건개요, 현장상황, 범행수법 등을 텍스트로 기록한 문서) 가운데 미제사건 데이터를 학습하고 해결된 사건 데이터를 검증 데이터로 활용했다. 2종의 알고리즘으로 피의자 범죄와 유사한 임장일지를 결합해 상위 50개 추천 임장일지를 찾아냈다.

NIA는 결론에서 이같은 데이터기반 과학적 행정 도입으로 예산, 정책, 산업, 사회안전 측면의 이점이 크다고 강조했다. 그에 따르면 과학적 행정은 정책의제 발굴 비용과 시간을 절감하고 객관적 행정처리로 국가재정을 확충할 수 있다. 복지와 민원의 사각지대를 해결해 합리적인 국가정책을 세울 수 있다. 민간·공공 데이터를 융합한 신산업 창출이 용이하다. 범죄와 자연재해 예측에 수치화된 데이터를 활용해 국가 사회안전망을 강화할 수 있다.