vor 2 Monaten

Auto-AVSR: Audiovisuelle Spracherkennung mit automatischen Etiketten

Ma, Pingchuan ; Haliassos, Alexandros ; Fernandez-Lopez, Adriana ; Chen, Honglie ; Petridis, Stavros ; Pantic, Maja

Abstract

Die audiovisuelle Spracherkennung hat aufgrund ihrer Robustheit gegenüber akustischem Rauschen viel Aufmerksamkeit erhalten. Kürzlich wurde die Leistung automatischer, visueller und audiovisueller Spracherkennung (ASR, VSR und AV-ASR jeweils) erheblich verbessert, hauptsächlich durch den Einsatz größerer Modelle und Trainingsdatensätze. Jedoch ist die genaue Beschriftung von Datensätzen zeitaufwendig und kostspielig. Daher untersuchen wir in dieser Arbeit die Verwendung automatisch generierter Transkripte von unbearbeiteten Datensätzen, um die Größe des Trainingsdatensatzes zu erhöhen. Zu diesem Zweck verwenden wir öffentlich verfügbare, vorab trainierte ASR-Modelle, um unbearbeitete Datensätze wie AVSpeech und VoxCeleb2 automatisch zu transkribieren. Anschließend trainieren wir ASR-, VSR- und AV-ASR-Modelle auf dem erweiterten Trainingsdatensatz, der aus den Datensätzen LRS2 und LRS3 sowie den zusätzlichen automatisch transkribierten Daten besteht. Wir zeigen, dass die Erhöhung der Größe des Trainingsdatensatzes, ein aktuelles Trend in der Literatur, trotz der Verwendung rauschiger Transkripte zu einer reduzierten WER führt. Das vorgeschlagene Modell erreicht neue Standards in der audiovisuellen Spracherkennung (AV-ASR) auf LRS2 und LRS3. Insbesondere erreicht es eine WER von 0,9 % auf LRS3, was eine relative Verbesserung von 30 % im Vergleich zum aktuellen Standard darstellt, und übertrifft Methoden, die mit 26-mal mehr Trainingsdaten aus nicht öffentlich zugänglichen Datensätzen trainiert wurden.