ETRI, AI 음향 인식 대회서 세계 1위 차지

기자정보, 기사등록일
차현아 기자
입력 2020-07-20 14:33
    도구모음
  • 글자크기 설정
  • DCASE 2020 대회 ‘복수 단말 음향 장면 인식’ 분야 입상

  • 로봇 ‘전자 귀’, 위험 인식, 장비 모니터링 등 활용 가능

국내 연구진이 인공지능(AI)을 이용해 소리를 듣고 어떠한 상황인지 음향 인식 기술력을 겨루는 국제대회에서 세계 1위를 달성했다.

한국전자통신연구원(ETRI)은 지난 3일 세계적인 인공지능 기반 음향 이벤트와 장면 인식 기술 경진 대회(DCASE)인 '음향 장면 인식 분야'에 참가해 우수한 성적을 거뒀다고 20일 밝혔다.

올해로 6회째를 맞이한 이번 대회는 음향 기술 분야의 유일한 글로벌 대회로, 세계 최대 전기·전자기술자협회(IEEE) AASP가 주관했다. 6개 분야에 총 138개 팀과 473개의 제안 시스템이 제출되어 지난 3월부터 6월 중순까지 과제별 기술 경쟁이 이뤄졌다. 대회에는 구글, 인텔, 아마존, IBM, 삼성, LG 등 세계 유수 기관이 참가했다.

ETRI가 참가한 분야 중 하나인 '복수 단말 대상 음향 장면 인식' 과제는 여러 단말기로 녹음한 소리를 듣고 녹음 장소를 알아맞히는 분야다. 액션캠이나 바이노럴 마이크, 잡음이 쉽게 섞이는 일반 스마트폰에 이르기까지 장비별로 다른 신호 특성을 정확하게 판단하는 분야로 '일반화 성능'이 관건이다.

연구진은 해당 분야에서 시스템 순위 1, 2위를 석권했다. 팀별로 최대 4개 기술까지 제출이 가능해 총 28개 팀, 92개 시스템이 출전한 가운데 ETRI 기술은 최고 성적을 차지해 팀 순위 1위를 달성했다. 팀 순위 2등은 조지아텍-중국과기대-텐센트-UEK 연합팀이 차지했다.

개발한 기술은 노약자 및 청각 장애인 등을 위한 ‘위험 회피 기술’ 분야로 응용이 가능하다. 소리를 잘 듣지 못해 상황을 인식하지 못하는 계층을 위해 따뜻한 기술로 활약할 수 있는 셈이다. 이외에도 소리를 듣고 관련 정보를 도출해내는 미디어 자동 태깅 기술, 자동차, 공장 라인 소리를 듣고 이상 유무를 알아내는 장비 상태 모니터링, 로봇과 같은 다양한 분야에서 활용할 수 있을 전망이다.

우수한 성적을 거둔 비결로 연구진은 소리를 주파수 대역별로 나누어 모델이 각각 학습을 할 수 있도록 만든 '딥러닝 기반 트라이던트(Trident) 구조 신경망 개발', 단말별 오디오 신호처리 특성 일반화를 이루는데 강점을 지닐 수 있는 '비균등 입력 특징 분할 기법'을 설계해 적용한 점을 들었다.

덕분에 전년도보다 어려워진 과제를 능숙하게 대처하고 학습에 사용된 단말뿐 아니라 새로운 단말의 음향 데이터를 접했을 때도 우수한 성능을 낼 수 있었다.

한편, 연구진은 수행 중인 과제와 관련해 '저복잡도 기반 음향 장면 인식', '음향 발생 방향 및 이벤트 인식' 분야에도 참가해 좋은 성적을 거뒀다. 입상한 팀은 추가 성능 분석 결과를 포함하여 학회에 논문을 제출하고 이를 발표할 예정이다.

김흥묵 ETRI 미디어연구본부장은 "딥러닝 기반 음향 인식 기술은 향후 새로운 응용 서비스 기술 개발을 통해 국내 관련 산업의 경쟁력 확보와 시장 활성화에 크게 기여할 것"이라고 말했다.
 

ETRI연구진들이 개발한 차세대 다채널 오디오 프로세서 기술을 시연하는 모습. [사진=ETRI 제공]



 

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
0개의 댓글
0 / 300

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

댓글을 삭제 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기

이미 신고 접수한 게시물입니다.

닫기
신고사유
0 / 100
닫기

신고접수가 완료되었습니다. 담당자가 확인후 신속히 처리하도록 하겠습니다.

닫기

차단해제 하시겠습니까?

닫기

사용자 차단 시 현재 사용자의 게시물을 보실 수 없습니다.

닫기
실시간 인기
기사 이미지 확대 보기
닫기