인공지능(AI) 인프라 핵심 중 하나인 데이터가 중요 자산으로 떠오르고 있다. 산업 AI전환(AX)을 실현하려면 산업별 특화 지식을 학습해야 하는데, AI 학습에 쓸만한 데이터가 턱없이 부족한 현실이다. 데이터 표준화를 비롯해 저작권 이슈, 공정성 문제 등 기술·제도적 장애물이 AI 고도화를 가로막고 있다. 이러한 문제를 통합적으로 지원할 수 있는 정부의 체계적인 지원이 필요하다는 지적이 나온다.
10일 정보통신기획평가원(IITP) 보고서에 따르면, 현재 데이터 소비 속도가 유지되면 2028년에는 전체 활용 가능한 텍스트 데이터가 모두 소진될 것이라고 경고했다. 기존 AI 활용 학습에 이용되는 데이터의 구조적 문제를 짚었다. 학습 중복으로 인한 비효율성, 데이터 노이즈, 데이터 편향성, 데이터 공정성 등이 대표적이다.
데이터 품질 부족의 이면에는 '공정성' 문제가 있다. 해외에서는 흑인이나 아시아계 여성을 인식하지 못하는 얼굴인식 알고리즘이 논란이 된 바 있다. 국내에서도 지역(경상도·전라도), 학력, 성별 등 사회적 편견이 데이터에 은연중에 녹아든다는 우려가 크다.
조성배 연세대 교수는 “기업 채용 데이터를 기반으로 학습한 AI가 ‘과거에 많이 뽑힌 인재의 특징’을 기준으로 삼을 경우, 무의식적으로 남성 지원자나 특정 대학 출신을 더 긍정적으로 평가할 수 있다”며 “이러한 편향은 의도적이지 않더라도 시스템 전반에 구조적으로 내재될 수 있다”고 지적했다.
이러한 양적 한계가 심화되면서 데이터를 자산으로 보호하려는 저작권 문제도 부각되고 있다. 일례로 2023년말 기준 미국 주요 뉴스 사이트의 80% 이상이 오픈AI 등 AI 크롤러의 접근을 차단했고, 뉴욕 타임스는 이용 약관에 AI 학습 목적 사용 금지 조항을 명시했다. 국내에서는 최근 방송협회가 네이버와 네이버클라우드 상대로 AI 저작권 침해와 관련해 수백억원대 저작권 침해 소송을 예고했다. 한국신문협회도 지난 4월 네이버가 기사 콘텐츠를 AI 학습에 무단 사용했다고 공정거래위원회에 신고했다.
더욱이 산업 현장에선 데이터가 있어도 표준화 등 디지털 전환 인프라가 부족해 실질적으로 AI를 구현하기 어렵다는 한계가 있다. 한국은 방대한 제조 데이터를 보유하고 있지만, 실질적으로 활용하기 위한 데이터 정제 과정이나 표준화 작업이 미흡하다. 양질의 데이터를 확보하기 위해선 데이터 수집·학습·활용 전 단계에서 검증 절차를 거쳐야 하는데, 이를 위한 정부의 통합적 지원이 필요하다고 지적한다.
강성은 한국무역협회 수석연구원은 "정부는 'AI 도입 진단-AI 기반 구축-AI 솔루션 기업 탐색-AI 내재화'로 이어지는 단계별 맞춤 지원체계를 구축해 민관 협력 생태계를 조성해야 한다'"면서 "산업별 특화 AI 생태계를 조성하여 자국의 데이터와 인프라를 활용해 디지털 주권과 데이터 안보를 확보하는 '소버린 AI' 전략이 필요하다"고 강조했다.
이와 함께 저작권 이슈와 공정성 문제를 다루기 위한 법제도적 기반 마련을 위한 논의도 필요하다. 다만, 그 과정에서 정부는 산업 활성화와 제도적 규제 간 균형점을 찾는 역할이 요구된다. 최재식 카이스트 AI대학원 교수는 “사전에 데이터를 얼마나 세밀하게 걸렀는지까지 규제하는 것은 현실적으로 과도하다”며 “AI가 데이터를 생성·학습·서비스하는 전 과정을 투명하게 관리하고, 문제가 발생했을 때 사후 규제하는 방식이 보다 실효적”이라고 강조했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지



![[르포] 중력 6배에 짓눌려 기절 직전…전투기 조종사 비행환경 적응훈련(영상)](https://image.ajunews.com/content/image/2024/02/29/20240229181518601151_258_161.jpg)



