[AI, 생활 속으로] ③ "사람 목소리도 데이터"

차현아 기자입력 : 2020-07-13 08:05
아틀라스랩스, 음성인식 기반 아이폰 통화 서비스 선봬 "AI 대중화의 핵심은 음성인식...서비스 곳곳에 녹아들 것"
사람의 목소리는 데이터 중에서도 처리가 까다로운 편이다. 사람마다 목소리 음역과 억양, 리듬이 모두 다르기 때문이다. 심지어 같은 문장이라도 발화 길이와 높낮이, 혹은 표정에 따라 의미가 달라지는 경우도 있다. 그만큼 이미지와 텍스트를 처리하는 것에 비해 음성인식은 고난이도 기술에 해당한다.

일상생활에 녹아들 AI 서비스의 핵심도 음성인식이다. 일일이 텍스트를 입력하지 않고도 누군가와 대화하듯 편하게 말로 원하는 것을 AI에 명령할 수 있다는 '편의성' 때문이다.

최근 국내 AI 기업 아틀라스랩스는 아이폰 음성녹음 서비스인 '스위치'를 선보였다. 자체 개발한 음성인식 및 자연어 처리 AI기술 '제로스EE'를 이용한 서비스로, 통화녹음 기능과 통화내용을 문자 메시지처럼 텍스트로 변환하는 기능을 포함하고 있다. 이전 통화내역을 데이터로 관리할 수도 있다.

스위치는 일종의 인터넷 전화 앱이다. 스마트폰의 기본 통화 기능을 활용하지 않고 인터넷에 연결해 전화를 할 수 있는 통화 어플이다. 통화녹음 기능을 제공하지 않는 아이폰 단말에서도 녹음이 가능한 이유기도 하다.

음성인식 기술은 크게 △음성인식 △자연어 이해 △음성합성 등으로 나뉜다. 음성인식은 음성을 텍스트로 변환하는 기술이며, 자연어 이해는 텍스트 데이터를 키워드와 문장으로 추출하는 기술이다. 또한 음성합성은 텍스트를 음성으로 변환해 AI가 사람에게 말을 걸도록 돕는 기술이다. 스위치에는 이 중 음성인식과 자연어 이해 기술이 도입됐다.

스위치와 같은 음성인식 기술을 구현하는데는 수많은 실제음성 데이터가 핵심이다. 실제로 상용화 수준의 음성 인식기를 만들기 위해서는 여러 사람의 목소리가 들어있는 약 1000~2000시간 이상의 음성 데이터가 필요하다. 아틀라스랩스는 2018년부터 제로스 프로젝트를 통해 음성 인식기를 학습시킬 수 있는 데이터를 수집하고 이를 오픈소스로 업계와 공유해왔다.

음성인식 기술의 활용범위는 더욱 넓어질 전망이다. 아틀라스랩스는 현재 포스코ICT와 오뚜기, 예스24, KT DS 등에 제로스EE 솔루션을 공급하고 있다. 예스24는 아틀라스랩스의 솔루션을 활용해 음성 온라인 쇼핑 서비스를 열었다. 음성으로 신규 도서명 등을 입력해 검색하는 서비스다. 아틀라스 랩스가 자체 개발한 구문 힌트(Phrase Hint) 기능을 활용했다. 음성 인식률은 91.5% 이상을 기록해 우수한 성과를 냈다. 음성 기반 인터페이스는 터치 기반 인터페이스보다 3배 이상 입력 속도가 빠른 장점이 있다.

류로빈 아틀라스랩스 대표는 "스위치는 AI 음성인식 기술을 활용해 사람들의 일상 생활에 도움을 주고자 고민한 결과로 만든 서비스"라며 "대화내용을 기록해 편리한 업무환경을 제공하고, 더 나아가 누구나 손쉽게 AI 전화를 이용할 수 있도록 해 AI기술의 대중화를 이끌겠다"고 말했다.
 

[사진=게티이미지뱅크 제공]


코로나19 재난구호 후원하기

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

네티즌 의견 0
0 / 300

실시간 급상승

9.9초 더보기

아주 글로벌