카이스트(KAIST)는 전기및전자공학부 황의종 교수 연구팀이 마이크로소프트연구소와 공동연구를 통해, 시간 데이터베이스 기술을 활용해 거대언어모델(LLM)의 시간 추론 능력을 자동으로 평가·진단하는 시스템을 개발했다고 14일 밝혔다.
인공지능이 사용자 신뢰를 얻기 위해서는 시시각각 변화하는 현실 정보를 정확히 이해하는 능력이 필수다. 그러나 기존 평가 방식은 단순 정답 일치 여부만 확인하거나 복잡한 시간 관계를 충분히 반영하지 못해 실제 환경에서 발생하는 다양한 질문을 제대로 평가하기 어려웠다.
연구팀은 이를 해결하기 위해 40여 년간 검증된 시간 데이터베이스 설계 이론을 인공지능 평가 분야에 최초로 도입했다. 데이터의 시간적 흐름과 관계 구조를 활용해, 사람이 일일이 평가 문제를 만들지 않아도 데이터베이스만으로 13가지 유형의 복잡한 시간 기반 문제를 자동 생성할 수 있도록 한 것이 핵심이다.
또 연구팀은 단순히 최종 답변의 정오만 판단하던 기존 방식에서 벗어나, 답변 과정에서 제시된 날짜나 기간의 논리적 타당성까지 검증하는 새로운 지표를 도입했다. 이를 통해 겉으로는 정답처럼 보이지만 시간적 근거가 잘못된 ‘시간 환각 현상을 기존 대비 평균 21.7% 더 정확하게 탐지하는 성과를 거뒀다.
이 기술을 적용하면 정보 변경 시 데이터베이스 업데이트만으로 평가가 유지되므로 비용이 크게 절감되며, 입력 데이터량도 기존 대비 평균 51% 줄어드는 효과를 보였다.
황의종 교수는 “이번 연구는 고전적인 데이터베이스 설계 이론이 최신 인공지능의 신뢰성 문제를 해결하는 데 중요한 역할을 할 수 있음을 보여준 사례”라며, “방대한 전문 데이터를 평가 자원으로 전환함으로써 향후 의료·법률 등 다양한 분야의 인공지능 성능 검증에 실질적인 기반이 될 것으로 기대한다”고 말했다.
이번 연구는 KAIST 김소연 박사과정이 제1저자로 참여했으며, 마이크로소프트연구소의 진동 왕과 싱 시에 연구원이 공동 저자로 참여했다. 연구 결과는 오는 4월 인공지능 분야 최고 권위 학술대회 ICLR 2026에서 발표될 예정이다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지



![[르포] 중력 6배에 짓눌려 기절 직전…전투기 조종사 비행환경 적응훈련(영상)](https://image.ajunews.com/content/image/2024/02/29/20240229181518601151_258_161.jpg)



