'데이터 댐' 열렸다…과기정통부, AI 학습용 데이터 4억8000만건 개방

데이터 갈증 해소…한국형 AI 서비스 개발 속도
민·관 협력 AI 데이터 활용협의회 출범…"국민 삶 바꾸는 큰 변혁"

임혜숙 과학기술정보통신부 장관(앞줄 오른쪽 다섯 번째)이 18일 오전 서울 강서구 LG 사이언스파크 ISC에서 열린 '인공지능(AI) 데이터 활용협의회 출범식'에 참석해 출범 선포를 마치고 기념촬영 하고 있다. [사진=과학기술정보통신부 제공]

정부가 지난해부터 구축한 인공지능(AI) 학습용 데이터 총 4억8000만건을 공개한다. 지역별 방언이나 주요 도로 등 데이터가 포함돼 한국형 AI 서비스 개발에 속도를 낼 전망이다.

과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 18일 AI 학습용 데이터 170종, 총 4억8000만건을 'AI 허브'를 통해 개방한다고 밝혔다. 이날 60종을 시작으로 이달 말까지 순차적으로 개방할 예정이다.

이번에 개방하는 8대 분야 170종의 AI 학습용 데이터는 △음성·자연어(한국어 방언 등 39종) △헬스케어(암진단 영상 등 32종) △자율주행(도로주행영상 등 21종) △비전(스포츠 동작 영상 등 15종) △국토환경(산림수종 이미지 등 12종) △농축수산(가축행동 영상 등 14종) △안전(노후 시설물 이미지 등 19종) △기타(패션상품 이미지 등 18종) 등을 주요 내용으로 한다.

데이터 갈증 해소…한국형 AI 서비스 개발 속도

이번에 개방되는 AI 학습용 데이터는 대기업에서도 자체 확보하기 어려운 대규모 데이터를 제공한다는 점에서 의의가 있다. 그동안 국내 AI 산업계에서 가장 큰 걸림돌로 꼽아온 국내 데이터 부족 문제를 해소할 수 있을 것으로 기대된다.

그간 국내 AI 기업은 AI 개발에 필요한 데이터로 해외 오픈데이터를 활용했으나, 국내 실정을 반영하지 못해 AI 서비스 개발에 활용하기 어려운 문제가 있었다.

관련기사

이번에 개방되는 데이터에는 지역별 방언을 포함한 한국어, 국내 주요 도로와 국내 환자 의료영상 데이터 등이 확충돼 한국형 AI 서비스 개발에 속도가 붙을 전망이다.

예를 들어 오는 30일 공개를 앞둔 경상·전라·충청·강원·제주 등 방언 발화 데이터를 활용하면 표준어에 비해 사투리를 잘 인식하지 못하던 음성 기반 AI 서비스의 문제점을 해결할 수 있다. 데이터 개방 전 활용성 검토 결과 기존 서비스의 인식률이 12% 향상됐다는 등 좋은 평가를 받았다.

오는 30일까지 순차적으로 공개될 자율주행 데이터 21종은 국내 도로주행 영상과 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 등 다채로운 데이터를 포함해 자율주행차 개발을 앞당길 것으로 보인다.

헬스케어 데이터 27종과 개인정보·민감정보가 포함될 우려가 있는 59종의 데이터는 최종검증을 거친 후 이달 30일에 개방한다.

AI 학습용 데이터 소개 [그래픽=과학기술정보통신부 제공]

데이터 품질관리↑…개인정보·혐오·편향성 검토

과기정통부와 NIA는 품질관리 전문기관인 한국정보통신기술협회(TTA), 전문기업 등과 협력해 데이터 품질관리 수준을 대폭 강화해왔다. TTA는 전문가와 활용기업 의견 수렴을 통해 품질기준을 정립하고, 이를 적용해 전반적인 데이터 품질을 검증했다. NIA는 AI 데이터를 안심하고 사용할 수 있는 활용 여건을 조성하기 위해 이미지와 영상 데이터의 경우 사전에 개인정보 동의를 받아 구축했다.

이 과정에서 개인정보, 혐오표현, 데이터 편향성 등 문제를 검토했다. 고윤석 NIA 본부장은 "편향성과 혐오표현이 들어갈 수 있는 데이터 4종을 먼저 1차로 추출했다. 특히 문제가 될 수 있는 데이터 1종을 전수 조사했다"며 "다만 데이터가 방대하기 때문에 조금이라도 문제가 있을 가능성은 있다. 3개월 개선 기간을 통해 이를 보완하겠다는 것"이라고 설명했다.

얼굴이나 차량 번호 등이 노출되는 데이터는 사전에 식별 정보를 지우고 여러 번 검토했다. 개인정보가 포함되지 않도록 한국어 텍스트 데이터 등은 시나리오를 기반으로 창작한 재현데이터로 구축했다. 일각에서는 시나리오 데이터를 활용하면 정확도가 하락할 수 있다는 우려가 있으나, 품질검증을 통해 학습 이후에 성능이 향상되는 점을 확인했다.

과기정통부와 NIA는 데이터 개방 후에도 오는 9월까지 이용자 참여형 집중개선기간을 운영해 이용자의 요구사항을 적극 반영할 방침이다. 민·관 협력을 기반으로 데이터를 지속적으로 개선해나간다는 계획이다.

민·관 협력 'AI 데이터 활용협의회' 출범…"국민 삶 바꾸는 큰 변혁"

AI 학습용 데이터 개방에 맞춰 활용 촉진과 성과 확산을 위해 과기정통부는 이날 오전 서울 마곡동에 위치한 LG사이언스파크에서 'AI 데이터 활용협의회'를 출범하며 간담회를 열었다. 'AI 데이터 활용협의회'는 데이터 품질관리 전문기관인 TTA와 이번 170종 데이터의 활용성 검토에 참여한 기업·기관을 중심으로 구성됐다.

임혜숙 과기정통부 장관은 이날 출범식에서 "AI 데이터 산업 성장은 여타 산업을 넘어 한국 경제 전체에 큰 성과를 가져올 것으로 예상한다. 참여자 간 상호 협력을 통해 엄청난 시너지를 창출할 것"이라며 "개방되는 데이터를 활용해 다양한 기관, 대기업, 스타트업 간 공동 연구와 서비스 개발이 상생 협력을 촉진해 개방형 혁신을 확대하고, 디지털 전환 가속화에 기여할 것"이라고 말했다.

이어 "또한 이번 협의체를 출범을 통해 AI 기술 활용과 이용 저변을 확대할 것으로 기대한다. 협의회 출범이라는 작은 변화가 개발자, 스타트업, 중소벤처기업 등 누구나 자유롭게 데이터를 활용해서 경제와 사회를 바꾸고, 국민 삶을 바꾸는 큰 변혁을 이뤄낼 수 있을 것"이라고 덧붙였다.

문용식 NIA 원장은 "디지털 뉴딜은 4만여명의 일자리를 만들었고, 모든 산업에서 디지털 전환이 가속화하는 변곡점이 됐다"며 "데이터를 열심히 구축했지만, 구축보다는 활용이 더 중요하다. 데이터를 바탕으로 AI 기술 모델을 고도화하고 새로운 서비스도 많이 나와 AI 강국으로 우뚝 서는 출발점이 되길 기대한다"고 밝혔다.