
정부가 인공지능(AI)이 즉시 활용할 수 있는 형태로 공공데이터를 가공해 제공하는 ‘AI-Ready’ 개념을 도입한다.
AI 학습과 분석에 최적화된 공공데이터를 정부 차원에서 본격 관리하겠다는 방침으로, 데이터 활용이 핵심인 AI 기업과 스타트업에 호재로 작용할 전망이다.
18일 행정안전부에 따르면, 정부는 공공데이터 형식·품질을 대대적으로 개편하는 ‘AI-Ready 공공데이터’ 기준을 마련한다. 기관별로 제각각 제공되던 공공데이터 포맷과 표기 방식 일원화와, AI가 자동으로 인식할 수 있는 메타정보 포함이 핵심이다.
실제 AI 기업들의 데이터 수집·정제 과정은 상당한 시간과 비용을 소모한다. 특히 자연재해나 교통·기상 정보를 실시간 분석해 대응하는 앱이나 플랫폼을 운영하는 기업에게 공공데이터는 핵심 자원이지만, 형식이 통일되지 않아 분석에 어려움을 겪는 경우가 많았다.
대표적인 사례가 재난 상황에서 대피경로를 안내하는 앱을 개발 중인 B 스타트업이다. 이 기업은 기상청의 강수량 정보, 행안부의 재난문자, 도로공사의 교통 흐름 데이터, 소방청의 출동 이력 등 공공데이터를 조합해 사용한다. 그러나 현재는 각 데이터가 행정구역 코드나 주소체계조차 달라 AI가 스스로 통합·분석하기 어려운 상황이다.
B 기업 관계자는 "AI-Ready 공공데이터가 제공되면 AI가 자동으로 검색과 연계할 수 있게 된다"며 "스타트업들이 별도 데이터 정제‧가공 과정 없이도 A 기반 앱 서비스를 개발하고 운영할 수 있게 돼 서비스 품질을 높일 수 있을 것으로 기대한다"고 말했다.
행안부가 밝힌 AI-Ready 기준은 크게 세 가지다. 첫째, AI가 자동으로 읽고 이해할 수 있는 포맷으로 데이터를 제공한다. CSV, JSON, XML 등 기계 판독이 쉬운 오픈 포맷을 기본으로 한다. 데이터에는 메타정보도 포함한다. 예컨대 데이터 생성일, 수정 이력, 결측률, 갱신 주기, 요약 통계 등을 함께 제공하는 식이다.
둘째, 데이터 내 식별자(주소, 행정코드 등)는 공통된 표준코드로 제공한다. 기존에는 기관별로 자체 주소체계를 사용하거나, 시·군·구 단위 표기가 서로 달라 연계에 어려움이 있었다. 개편을 통해 데이터 간 연동성을 높인다는 계획이다.
셋째, 데이터 품질에 대한 최소 기준을 설정한다. 시계열의 일관성, 결측값 여부, 속성 간 논리적 정합성 등 품질 검증 기준을 포함한다. 또, AI가 학습할 때 오류나 왜곡 없이 분석 결과를 도출할 수 있도록 설계한다.
행정안전부는 관련 전문가, 데이터 과학자, 민간 활용 기업들이 참여하는 실무단을 통해 기준을 구체화하고, 공공데이터포털에 우선 적용한 뒤, 점차 전체 공공기관으로 확대할 방침이다. 특히 초기에는 기업 수요가 높은 교통, 기상, 환경, 재난안전 분야 데이터에 우선 적용할 예정이다.
윤호중 행정안전부 장관은 "AI는 데이터에서 시작되고, 데이터는 AI 경쟁력의 원천"이라며 "정부는 고품질 공공데이터를 AI가 바로 쓸 수 있는 형태로 전환해 민간의 혁신과 산업 경쟁력을 뒷받침하겠다"고 밝혔다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지