HyperAIHyperAI

Command Palette

Search for a command to run...

Whisper-Flamingo: Integration visueller Merkmale in Whisper für audiovisuelle Spracherkennung und -übersetzung

Andrew Rouditchenko Yuan Gong Samuel Thomas Leonid Karlinsky Hilde Kuehne Rogerio Feris James Glass

Zusammenfassung

Audio-Visual Speech Recognition (AVSR) nutzt video-basierte Lippenbewegungen, um die Leistung bei Rauschen zu verbessern. Da Videos schwieriger zu beschaffen sind als Audios, ist das Video-Trainingsdatenmaterial von AVSR-Modellen in der Regel auf einige tausend Stunden beschränkt. Im Gegensatz dazu werden Sprachmodelle wie Whisper mit Hunderttausenden von Stunden Daten trainiert und lernen daher einen besseren Sprach-zu-Text-Dekoder. Der große Unterschied im Trainingsdatenvolumen motiviert uns, Whisper anzupassen, um Videoeingaben zu verarbeiten. Inspiriert durch Flamingo, das visuelle Merkmale in Sprachmodelle einfügt, schlagen wir Whisper-Flamingo vor, welches visuelle Merkmale durch geregelte Kreuzaufmerksamkeit in das Whisper-Spracherkennungs- und -übersetzungsmodell integriert. Unsere Modelle erreichen den aktuellen Stand der Technik in Bezug auf die ASR-WER (0,68 %) und AVSR-WER (0,76 %) auf LRS3 sowie den ASR-WER (1,3 %) und AVSR-WER (1,4 %) auf LRS2. Das audio-visuelle Whisper-Flamingo übertrifft das reine Audio-Whisper bei der Erkennung von englischer Sprache und der Übersetzung von Englisch in sechs andere Sprachen unter rauscharmen Bedingungen. Darüber hinaus ist Whisper-Flamingo vielseitig und führt alle diese Aufgaben mit einem Satz von Parametern durch, während frühere Methoden für jede Sprache getrennt trainiert wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp