HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End Spracherkennung mit adaptiven Berechnungsschritten

Mohan Li Min Liu Hattori Masanori

Zusammenfassung

In dieser Arbeit stellen wir den Algorithmus für adaptive Berechnungsschritte (Adaptive Computation Steps, ACS) vor, der es End-to-End-Spracherkennungsmodellen ermöglicht, dynamisch zu entscheiden, wie viele Frames verarbeitet werden sollten, um eine sprachliche Ausgabe vorherzusagen. Das Modell, das den ACS-Algorithmus anwendet, folgt dem Encoder-Decoder-Framework. Im Gegensatz zu aufmerksamkeitsbasierten Modellen erstellt es jedoch unabhängig auf der Encoder-Seite Ausrichtungen unter Verwendung der Korrelation zwischen benachbarten Frames. Dadurch können Vorhersagen sofort getroffen werden, sobald ausreichend akustische Informationen empfangen wurden, was das Modell für Online-Anwendungen geeignet macht. Darüber hinaus wurde eine kleine Änderung am Decoding-Stadium des Encoder-Decoder-Frameworks vorgenommen, die es ermöglicht, bidirektionale Kontexte zu nutzen. Wir überprüfen den ACS-Algorithmus an einem Mandarin-Chinesisch-Korpus namens AIShell-1 und erzielen dabei einen Zeichenerkennungsfehler (Character Error Rate, CER) von 31,2 % im Online-Betrieb, verglichen mit einem CER von 32,4 % des aufmerksamkeitsbasierten Modells. Um den Vorteil des ACS-Algorithmus vollständig zu demonstrieren, wurden auch Offline-Experimente durchgeführt. In diesen Experimenten erreicht unser ACS-Modell einen CER von 18,7 % und übertrifft damit das aufmerksamkeitsbasierte Gegenstück mit einem CER von 22,0 %.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp