2달 전
SyncVSR: 데이터 효율적인 시각적 음성 인식을 위한 엔드투엔드 크로스모달 오디오 토큰 동기화
Ahn, Young Jin ; Park, Jungwoo ; Park, Sangha ; Choi, Jonghyun ; Kim, Kee-Eung

초록
시각적 음성 인식(VSR)은 컴퓨터 비전과 음성 인식의 교차점에 위치하며, 시각적 힌트를 통해 구사된 내용을 해석하는 것을 목표로 합니다. VSR에서 주요한 도전 과제 중 하나는 동음이의어(homophenes)-다른 음소를 나타내지만 시각적으로 유사한 입술 제스처-의 존재입니다. 이전 접근 방식들은 시각적 의미와 청각적 의미를 일치시키려고 하였으나, 종종 완전한 동기화에는 미치지 못했습니다. 이를 해결하기 위해, 우리는 양자화된 오디오를 프레임 단위로 다중 모달 감독에 활용하는 엔드투엔드 학습 프레임워크인 SyncVSR을 제시합니다. 시각적 표현과 음향 데이터를 동기화하는 투영 레이어를 통합함으로써, 우리의 인코더는 비디오 시퀀스에서 자동 회귀적이지 않은 방식으로 이산 오디오 토큰을 생성하도록 학습됩니다. SyncVSR은 전방 패스(forward pass)의 비용을 지불하면서도 다양한 작업, 언어 및 모달 간에 유연성을 보여줍니다. 우리의 경험적 평가는 이 방법이 최신 기술 수준의 결과를 달성할 뿐만 아니라 데이터 사용량을 최대 9배까지 줄일 수 있음을 보여줍니다.