HyperAIHyperAI

Command Palette

Search for a command to run...

Robuste selbstüberwachte Audiovisuelle Spracherkennung

Shi Bowen ; Hsu Wei-Ning ; Mohamed Abdelrahman

Zusammenfassung

Die audio-basierte automatische Spracherkennung (ASR) verschlechtert sich erheblich in geräuscharmen Umgebungen und ist besonders anfällig für störende Sprache, da das Modell nicht bestimmen kann, welchen Sprecher es transkribieren soll. Audio-visuelle Spracherkennungssysteme (AVSR) verbessern die Robustheit, indem sie den Audiostream mit visuellen Informationen ergänzen, die unabhängig von Geräuschen sind und dem Modell helfen, sich auf den gewünschten Sprecher zu konzentrieren. Bislang fokussierte sich jedoch die Forschung im Bereich AVSR ausschließlich auf überwachte Lernmethoden; daher wurde der Fortschritt durch die verfügbare Menge an etikettierten Daten eingeschränkt. In dieser Arbeit präsentieren wir ein selbstüberwachtes AVSR-Framework, das auf Audio-Visual HuBERT (AV-HuBERT) basiert, einem aktuellen Modell zur audio-visuellen Sprachrepräsentationslernen. Auf dem größten verfügbaren AVSR-Benchmark-Datensatz LRS3 übertrifft unser Ansatz den bisherigen Stand der Technik um etwa 50% (28,0% gegenüber 14,1%), wobei weniger als 10% der etikettierten Daten (433 Stunden gegenüber 30 Stunden) verwendet werden, wenn Hintergrundgeräusche vorliegen. Gleichzeitig reduziert unser Ansatz den WER eines audio-basierten Modells im Durchschnitt um mehr als 75% (25,8% gegenüber 5,8%).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp