9일 전

모바일 장치의 센서를 이용한 오디오-비주얼 음성 및 제스처 인식

{Elena Ryumina, Denis Ivanko, Dmitry Ryumin}
초록

음성-시각적 말하기 인식(AVSR, Audio-Visual Speech Recognition)은 소음으로 인해 음성 신호가 손상된 상황에서도 신뢰성 높은 말하기 인식을 위한 가장 유망한 해결책 중 하나이다. 추가적인 시각 정보는 자동 입모양 인식 및 제스처 인식에 활용될 수 있다. 손 제스처는 비언어적 소통의 한 형태로서 현대의 인간-컴퓨터 상호작용 시스템에서 매우 중요한 역할을 할 수 있다. 현재 스마트폰과 같은 이동 단말기의 센서를 통해 음성과 영상 모달리티는 쉽게 접근 가능하다. 그러나 자동 음성-시각적 말하기 및 제스처 인식을 위한 즉시 사용 가능한 솔루션은 존재하지 않는다. 본 연구에서는 AVSR 및 제스처 인식을 위한 두 가지 딥 뉴럴 네트워크 기반 모델 아키텍처를 제안한다. 음성-시각적 말하기 인식 분야에서의 주요 혁신은 시각적 및 음성 특징에 대한 정밀 조정(fine-tuning) 전략과, 예측 수준, 특징 수준, 모델 수준의 세 가지 모달리티 융합 접근 방식을 고려한 엔드투엔드(end-to-end) 모델의 제안이다. 제스처 인식 분야에서의 주요 혁신은 입의 운동 정보를 반영한 고유한 시공간 특징들로 구성된 특징 세트이다. 현재 음성-시각적 말하기와 제스처 인식을 통합한 작업을 위한 공개 데이터셋이 없기 때문에, 본 연구에서는 두 개의 대규모 코퍼스인 LRW와 AUTSL에서 제안한 방법을 평가하였으며, 두 작업 모두 기존 방법보다 우수한 성능을 달성하였다. LRW 데이터셋에서 AVSR 정확도는 98.76%에 달했으며, AUTSL 데이터셋에서 제스처 인식 정확도는 98.56%를 기록하였다. 이러한 결과는 제안된 방법론의 높은 성능뿐만 아니라, 이동 단말기 센서를 통해 음성-시각적 말하기 및 제스처를 인식할 수 있는 기초적인 가능성을 입증한다.