Whisper-Flamingo: Integration visueller Merkmale in Whisper für audiovisuelle Spracherkennung und -übersetzung

Audio-Visual Speech Recognition (AVSR) nutzt video-basierte Lippenbewegungen, um die Leistung bei Rauschen zu verbessern. Da Videos schwieriger zu beschaffen sind als Audios, ist das Video-Trainingsdatenmaterial von AVSR-Modellen in der Regel auf einige tausend Stunden beschränkt. Im Gegensatz dazu werden Sprachmodelle wie Whisper mit Hunderttausenden von Stunden Daten trainiert und lernen daher einen besseren Sprach-zu-Text-Dekoder. Der große Unterschied im Trainingsdatenvolumen motiviert uns, Whisper anzupassen, um Videoeingaben zu verarbeiten. Inspiriert durch Flamingo, das visuelle Merkmale in Sprachmodelle einfügt, schlagen wir Whisper-Flamingo vor, welches visuelle Merkmale durch geregelte Kreuzaufmerksamkeit in das Whisper-Spracherkennungs- und -übersetzungsmodell integriert. Unsere Modelle erreichen den aktuellen Stand der Technik in Bezug auf die ASR-WER (0,68 %) und AVSR-WER (0,76 %) auf LRS3 sowie den ASR-WER (1,3 %) und AVSR-WER (1,4 %) auf LRS2. Das audio-visuelle Whisper-Flamingo übertrifft das reine Audio-Whisper bei der Erkennung von englischer Sprache und der Übersetzung von Englisch in sechs andere Sprachen unter rauscharmen Bedingungen. Darüber hinaus ist Whisper-Flamingo vielseitig und führt alle diese Aufgaben mit einem Satz von Parametern durch, während frühere Methoden für jede Sprache getrennt trainiert wurden.