2달 전

Whisper-Flamingo: 시각적 특성을 Whisper에 통합하여 오디오-시각적 음성 인식 및 번역 수행

Andrew Rouditchenko; Yuan Gong; Samuel Thomas; Leonid Karlinsky; Hilde Kuehne; Rogerio Feris; James Glass
Whisper-Flamingo: 시각적 특성을 Whisper에 통합하여 오디오-시각적 음성 인식 및 번역 수행
초록

오디오-비주얼 음성 인식(AVSR)은 소음 환경에서 성능을 개선하기 위해 입술 기반 비디오를 사용합니다. 비디오는 오디오보다 얻기 어려우므로, AVSR 모델의 비디오 훈련 데이터는 일반적으로 몇 천 시간에 불과합니다. 반면, Whisper와 같은 음성 모델은 수십만 시간의 데이터로 훈련되며, 이로 인해 더 우수한 음성-텍스트 디코더를 학습합니다. 이러한 큰 훈련 데이터 차이가 우리에게 Whisper를 비디오 입력 처리에 적응시키는 동기를 부여합니다. Flamingo가 시각적 특성을 언어 모델에 주입하는 방식에서 영감을 받아, 우리는 게이트 크로스 어텐션을 통해 시각적 특성을 Whisper 음성 인식 및 번역 모델에 통합하는 Whisper-Flamingo를 제안합니다. 우리의 모델들은 LRS3에서 최고 수준의 ASR WER(0.68%)와 AVSR WER(0.76%)를, LRS2에서는 ASR WER(1.3%)와 AVSR WER(1.4%)를 달성했습니다. 오디오-비주얼 Whisper-Flamingo는 소음 조건 하에서 영어 음성 인식과 6개 언어의 En-X 번역에서 오디오 전용 Whisper보다 우수한 성능을 보였습니다. 또한, Whisper-Flamingo는 다목적적이며 모든 작업을 하나의 매개변수 세트로 수행할 수 있으며, 이전 방법들은 각 언어별로 별도로 훈련되었습니다.번역 설명:1. "Audio-Visual Speech Recognition"은 "오디오-비주얼 음성 인식"으로 번역하였습니다.2. "Whisper"는 공통적으로 사용되는 용어이므로 그대로 유지하였습니다.3. "LRS3"와 "LRS2"는 데이터셋 이름으로 간주하여 그대로 유지하였습니다.4. "ASR WER"와 "AVSR WER"는 각각 "ASR 단어 오류율"과 "AVSR 단어 오류율"로 번역하였지만, 약자를 그대로 사용하여 더 정확하고 자연스럽게 표현하였습니다.5. "En-X translation"은 "영-X 번역"으로 번역하였습니다 (X는 다른 언어를 의미).