Robuste selbstüberwachte Audiovisuelle Spracherkennung

Die audio-basierte automatische Spracherkennung (ASR) verschlechtert sich erheblich in geräuscharmen Umgebungen und ist besonders anfällig für störende Sprache, da das Modell nicht bestimmen kann, welchen Sprecher es transkribieren soll. Audio-visuelle Spracherkennungssysteme (AVSR) verbessern die Robustheit, indem sie den Audiostream mit visuellen Informationen ergänzen, die unabhängig von Geräuschen sind und dem Modell helfen, sich auf den gewünschten Sprecher zu konzentrieren. Bislang fokussierte sich jedoch die Forschung im Bereich AVSR ausschließlich auf überwachte Lernmethoden; daher wurde der Fortschritt durch die verfügbare Menge an etikettierten Daten eingeschränkt. In dieser Arbeit präsentieren wir ein selbstüberwachtes AVSR-Framework, das auf Audio-Visual HuBERT (AV-HuBERT) basiert, einem aktuellen Modell zur audio-visuellen Sprachrepräsentationslernen. Auf dem größten verfügbaren AVSR-Benchmark-Datensatz LRS3 übertrifft unser Ansatz den bisherigen Stand der Technik um etwa 50% (28,0% gegenüber 14,1%), wobei weniger als 10% der etikettierten Daten (433 Stunden gegenüber 30 Stunden) verwendet werden, wenn Hintergrundgeräusche vorliegen. Gleichzeitig reduziert unser Ansatz den WER eines audio-basierten Modells im Durchschnitt um mehr als 75% (25,8% gegenüber 5,8%).