Whisper-Flamingo : Intégration des caractéristiques visuelles dans Whisper pour la reconnaissance et la traduction de la parole audiovisuelle

La reconnaissance audiovisuelle de la parole (AVSR) utilise des vidéos basées sur les lèvres pour améliorer les performances en présence de bruit. Étant donné que les vidéos sont plus difficiles à obtenir que l'audio, les données d'entraînement vidéo des modèles AVSR sont généralement limitées à quelques milliers d'heures. En revanche, les modèles de parole tels que Whisper sont entraînés avec plusieurs centaines de milliers d'heures de données, ce qui leur permet d'apprendre un meilleur décodeur texte-à-parole. Cette énorme différence dans les données d'entraînement nous motive à adapter Whisper pour traiter les entrées vidéo. Inspirés par Flamingo, qui injecte des caractéristiques visuelles dans les modèles de langage, nous proposons Whisper-Flamingo, qui intègre des caractéristiques visuelles au modèle de reconnaissance et traduction de la parole Whisper grâce à une attention croisée contrôlée par des portes. Nos modèles atteignent un taux d'erreur en reconnaissance automatique de la parole (ASR WER) record de 0,68 % et un taux d'erreur en reconnaissance audiovisuelle de la parole (AVSR WER) record de 0,76 % sur LRS3, ainsi qu'un ASR WER record de 1,3 % et un AVSR WER record de 1,4 % sur LRS2. La version audiovisuelle de Whisper-Flamingo surpasses la version audio seule de Whisper en reconnaissance vocale anglaise et en traduction En-X pour six langues dans des conditions bruyantes. De plus, Whisper-Flamingo est polyvalent et effectue toutes ces tâches avec un seul ensemble de paramètres, tandis que les méthodes précédentes étaient entraînées séparément pour chaque langue.