Command Palette
Search for a command to run...
Auto-AVSR: Audiovisuelle Spracherkennung mit automatischen Etiketten
Auto-AVSR: Audiovisuelle Spracherkennung mit automatischen Etiketten
Ma Pingchuan ; Haliassos Alexandros ; Fernandez-Lopez Adriana ; Chen Honglie ; Petridis Stavros ; Pantic Maja
Zusammenfassung
Die audiovisuelle Spracherkennung hat aufgrund ihrer Robustheit gegenüber akustischem Rauschen viel Aufmerksamkeit erhalten. Kürzlich wurde die Leistung automatischer, visueller und audiovisueller Spracherkennung (ASR, VSR und AV-ASR jeweils) erheblich verbessert, hauptsächlich durch den Einsatz größerer Modelle und Trainingsdatensätze. Jedoch ist die genaue Beschriftung von Datensätzen zeitaufwendig und kostspielig. Daher untersuchen wir in dieser Arbeit die Verwendung automatisch generierter Transkripte von unbearbeiteten Datensätzen, um die Größe des Trainingsdatensatzes zu erhöhen. Zu diesem Zweck verwenden wir öffentlich verfügbare, vorab trainierte ASR-Modelle, um unbearbeitete Datensätze wie AVSpeech und VoxCeleb2 automatisch zu transkribieren. Anschließend trainieren wir ASR-, VSR- und AV-ASR-Modelle auf dem erweiterten Trainingsdatensatz, der aus den Datensätzen LRS2 und LRS3 sowie den zusätzlichen automatisch transkribierten Daten besteht. Wir zeigen, dass die Erhöhung der Größe des Trainingsdatensatzes, ein aktuelles Trend in der Literatur, trotz der Verwendung rauschiger Transkripte zu einer reduzierten WER führt. Das vorgeschlagene Modell erreicht neue Standards in der audiovisuellen Spracherkennung (AV-ASR) auf LRS2 und LRS3. Insbesondere erreicht es eine WER von 0,9 % auf LRS3, was eine relative Verbesserung von 30 % im Vergleich zum aktuellen Standard darstellt, und übertrifft Methoden, die mit 26-mal mehr Trainingsdaten aus nicht öffentlich zugänglichen Datensätzen trainiert wurden.