End-to-End Spracherkennung mit adaptiven Berechnungsschritten

In dieser Arbeit stellen wir den Algorithmus für adaptive Berechnungsschritte (Adaptive Computation Steps, ACS) vor, der es End-to-End-Spracherkennungsmodellen ermöglicht, dynamisch zu entscheiden, wie viele Frames verarbeitet werden sollten, um eine sprachliche Ausgabe vorherzusagen. Das Modell, das den ACS-Algorithmus anwendet, folgt dem Encoder-Decoder-Framework. Im Gegensatz zu aufmerksamkeitsbasierten Modellen erstellt es jedoch unabhängig auf der Encoder-Seite Ausrichtungen unter Verwendung der Korrelation zwischen benachbarten Frames. Dadurch können Vorhersagen sofort getroffen werden, sobald ausreichend akustische Informationen empfangen wurden, was das Modell für Online-Anwendungen geeignet macht. Darüber hinaus wurde eine kleine Änderung am Decoding-Stadium des Encoder-Decoder-Frameworks vorgenommen, die es ermöglicht, bidirektionale Kontexte zu nutzen. Wir überprüfen den ACS-Algorithmus an einem Mandarin-Chinesisch-Korpus namens AIShell-1 und erzielen dabei einen Zeichenerkennungsfehler (Character Error Rate, CER) von 31,2 % im Online-Betrieb, verglichen mit einem CER von 32,4 % des aufmerksamkeitsbasierten Modells. Um den Vorteil des ACS-Algorithmus vollständig zu demonstrieren, wurden auch Offline-Experimente durchgeführt. In diesen Experimenten erreicht unser ACS-Modell einen CER von 18,7 % und übertrifft damit das aufmerksamkeitsbasierte Gegenstück mit einem CER von 22,0 %.