10일 전
음성-시각 음성 인식을 위한 순환 신경망 트랜스듀서
Takaki Makino, Hank Liao, Yannis Assael, Brendan Shillingford, Basilio Garcia, Otavio Braga, Olivier Siohan

초록
이 연구는 순환 신경망 트랜스듀서(RNN-T) 아키텍처를 기반으로 한 대규모 음성-시각 음성 인식 시스템을 제안한다. 이러한 시스템의 개발을 지원하기 위해, 유튜브 공개 영상에서 추출한 분할된 발화 문장을 기반으로 한 대규모 음성-시각(A/V) 데이터셋을 구축하였으며, 이로 인해 총 31,000시간의 음성-시각 학습 콘텐츠를 확보하였다. 음성만을 사용하는 시스템, 시각만을 사용하는 시스템, 그리고 음성-시각을 병행하는 시스템의 성능을 두 가지 대규모 어휘 테스트 세트에서 비교하였다. 이들 테스트 세트는 공개된 유튜브 영상의 발화 문장 세트인 YTDEV18과 공개된 LRS3-TED 세트를 포함한다. 시각 모달리티의 기여도를 강조하기 위해, 배경 잡음과 겹쳐진 발화로 인해 인위적으로 손상된 YTDEV18 세트에서도 시스템의 성능을 평가하였다. 최소한의 지식을 바탕으로 하더라도, 본 연구의 시스템은 LRS3-TED 세트에서 기존의 최고 성능을 크게 개선하였다.