2달 전
Conformers는 시각적 음성 인식에 필요한 전부입니다.
Chang, Oscar ; Liao, Hank ; Serdyuk, Dmitriy ; Shah, Ankit ; Siohan, Olivier

초록
시각적 음성 인식 모델은 계층적인 방식으로 시각적 특징을 추출합니다. 하위 수준에서는 입술이나 얼굴을 묘사하는 원시 픽셀을 처리하는 제한된 시간 수용 범위를 가진 시각적 프론트엔드가 있습니다. 상위 수준에서는 프론트엔드에서 생성된 임베딩에 주목하여 큰 시간 수용 범위를 처리하는 인코더가 있습니다. 이전 연구는 음성 인식에 더 유용한 특징을 추출하기 위해 모델의 시각적 프론트엔드를 개선하는 데 초점을 맞추었습니다. 놀랍게도, 우리의 연구는 복잡한 시각적 프론트엔드가 필요하지 않다는 것을 보여줍니다. 고급 시각적 프론트엔드에 자원을 할당하는 대신, 선형 시각적 프론트엔드와 더 큰 Conformer 인코더(컨포머 인코더)를 결합하면 지연 시간이 줄고 메모리 사용 효율성이 향상되며 WER 성능이 개선되는 것으로 나타났습니다. 우리는 TED LRS3 데이터셋에서 12.8%의 WER로 새로운 최고 수준의 성능을 달성하였으며, 이는 단지 4년 전의 오디오만 사용한 모델들의 성능과 견줄 만합니다.