HyperAIHyperAI

Command Palette

Search for a command to run...

Auto-AVSR: Audiovisuelle Spracherkennung mit automatischen Etiketten

Ma Pingchuan ; Haliassos Alexandros ; Fernandez-Lopez Adriana ; Chen Honglie ; Petridis Stavros ; Pantic Maja

Zusammenfassung

Die audiovisuelle Spracherkennung hat aufgrund ihrer Robustheit gegenüber akustischem Rauschen viel Aufmerksamkeit erhalten. Kürzlich wurde die Leistung automatischer, visueller und audiovisueller Spracherkennung (ASR, VSR und AV-ASR jeweils) erheblich verbessert, hauptsächlich durch den Einsatz größerer Modelle und Trainingsdatensätze. Jedoch ist die genaue Beschriftung von Datensätzen zeitaufwendig und kostspielig. Daher untersuchen wir in dieser Arbeit die Verwendung automatisch generierter Transkripte von unbearbeiteten Datensätzen, um die Größe des Trainingsdatensatzes zu erhöhen. Zu diesem Zweck verwenden wir öffentlich verfügbare, vorab trainierte ASR-Modelle, um unbearbeitete Datensätze wie AVSpeech und VoxCeleb2 automatisch zu transkribieren. Anschließend trainieren wir ASR-, VSR- und AV-ASR-Modelle auf dem erweiterten Trainingsdatensatz, der aus den Datensätzen LRS2 und LRS3 sowie den zusätzlichen automatisch transkribierten Daten besteht. Wir zeigen, dass die Erhöhung der Größe des Trainingsdatensatzes, ein aktuelles Trend in der Literatur, trotz der Verwendung rauschiger Transkripte zu einer reduzierten WER führt. Das vorgeschlagene Modell erreicht neue Standards in der audiovisuellen Spracherkennung (AV-ASR) auf LRS2 und LRS3. Insbesondere erreicht es eine WER von 0,9 % auf LRS3, was eine relative Verbesserung von 30 % im Vergleich zum aktuellen Standard darstellt, und übertrifft Methoden, die mit 26-mal mehr Trainingsdaten aus nicht öffentlich zugänglichen Datensätzen trainiert wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Auto-AVSR: Audiovisuelle Spracherkennung mit automatischen Etiketten | Paper | HyperAI