2달 전
Conformers를 이용한 End-to-end 오디오-비주얼 음성 인식
Ma, Pingchuan ; Petridis, Stavros ; Pantic, Maja

초록
이 연구에서는 ResNet-18과 컨볼루션 강화 트랜스포머(Conformer)를 기반으로 한 하이브리드 CTC/어텐션 모델을 제시합니다. 이 모델은 엔드투엔드 방식으로 훈련될 수 있습니다. 특히, 오디오 인코더와 시각 인코더는 각각 원시 픽셀과 오디오 웨이브폼에서 특징을 직접 추출하도록 학습되며, 이를 Conformer에 입력한 후 다층 퍼셉트론(MLP)을 통해 융합됩니다. 모델은 CTC와 어텐션 메커니즘의 조합을 사용하여 문자를 인식하는 방법을 학습합니다. 우리는 문헌에서 일반적으로 사용되는 사전 계산된 시각적 특징 대신 엔드투엔드 훈련, 순환 네트워크 대신 Conformer의 사용, 그리고 트랜스포머 기반 언어 모델의 사용이 모델의 성능을 크게 개선한다는 것을 보여줍니다. 우리는 문장 단위 음성 인식에 대한 가장 큰 공개 데이터셋인 Lip Reading Sentences 2 (LRS2)와 Lip Reading Sentences 3 (LRS3)에서 결과를 제시합니다. 실험 결과는 제안된 모델이 오디오만, 시각만, 그리고 오디오-시각 결합 실험에서 현존하는 최고 수준의 성능을 크게 높였음을 보여줍니다.