10일 전

구분적 다중모달 음성 인식

Bo Xu, Cheng Lu, Yandong Guo, Jacob Wang
구분적 다중모달 음성 인식
초록

시각 정보는 소음이 심한 환경에서 단일 오디오 모달리티의 성능이 크게 저하되는 상황에서 음성 인식(ASR)의 보조적 모달리티로 자주 활용된다. 시각 정보를 결합함으로써 ASR는 다모달 음성 인식(MSR)으로 발전한다. 본 논문에서는 두 단계로 구성된 음성 인식 모델을 제안한다. 첫 번째 단계에서는 입술 움직임에 해당하는 시각 정보를 활용하여 배경 잡음에서 목표 음성을 분리함으로써 모델이 명확하게 '청취'할 수 있도록 한다. 두 번째 단계에서는 오디오 모달리티가 다시 시각 모달리티와 결합되어 MSR 하위 네트워크를 통해 음성을 더 정확히 이해하고, 인식 정확도를 더욱 향상시킨다. 본 연구의 주요 기여 사항은 다음과 같다: 먼저, 더 구분력 있는 특징을 추출하기 위해 허구의 3차원 잔차 컨볼루션(P3D) 기반의 시각 프론트엔드를 도입하였으며, 시간적 특징 추출을 위해 기존의 1D ResNet 기반의 시간적 컨볼루션 블록을 시간적 컨볼루션 네트워크(TCN)로 업그레이드하였다. 이는 시간 순서에 따라 처리하는 작업에 더 적합하다. 또한 MSR 하위 네트워크는 원소별 주의 기반 게이트드 순환 단위(EleAtt-GRU) 위에 구축되었으며, 긴 시계열 데이터 처리에서 Transformer보다 더 뛰어난 성능을 보였다. 제안한 모델은 LRS3-TED 및 LRW 데이터셋을 대상으로 광범위한 실험을 수행하였으며, 제안한 이중 단계 모델(Audio Enhanced Multi-modality Speech Recognition, AE-MSR)은 상당한 차이로 기존의 최고 성능을 지속적으로 달성하였다. 이는 AE-MSR의 필요성과 효과성을 입증하는 결과이다.