Command Palette
Search for a command to run...
Einheitliches Streaming- und Nicht-Streaming-Zweipass-End-to-End-Modell für die Spracherkennung
Einheitliches Streaming- und Nicht-Streaming-Zweipass-End-to-End-Modell für die Spracherkennung
Binbin Zhang Di Wu Zhuoyuan Yao Xiong Wang Fan Yu Chao Yang Liyong Guo Yaguang Hu Lei Xie Xin Lei
Zusammenfassung
In diesem Paper präsentieren wir einen neuartigen zweistufigen Ansatz, um Streaming- und Nicht-Streaming-End-to-End (E2E)-Spracherkennung in einem einzigen Modell zu vereinen. Unser Modell basiert auf der hybriden CTC/Attention-Architektur, wobei die Conformer-Layer im Encoder modifiziert werden. Wir schlagen eine dynamische, chunkbasierte Aufmerksamkeitsstrategie vor, die eine beliebige Länge des rechten Kontexts ermöglicht. Während der Inferenz generiert der CTC-Decoder n-Best-Hypothesen streamend. Die Inferenz-Latenz lässt sich einfach durch Anpassung der Chunk-Größe steuern. Anschließend werden die CTC-Hypothesen durch den Attention-Decoder neu bewertet, um das endgültige Ergebnis zu erhalten. Dieser effiziente Neubewertungsprozess verursacht nur eine geringe Satz-Latenz auf Ebene der Gesamtsentence. Unsere Experimente auf dem öffentlichen AISHELL-1-Datensatz mit 170 Stunden zeigen, dass die vorgeschlagene Methode die Vereinigung von Streaming- und Nicht-Streaming-Modellen einfach und effizient ermöglicht. Auf dem AISHELL-1-Testset erreicht unser vereinigtes Modell gegenüber einem standardmäßigen Nicht-Streaming-Transformer eine relative Reduktion des Zeichenfehlerquotienten (CER) um 5,60 % bei Nicht-Streaming-ASR. Das gleiche Modell erreicht bei einem Streaming-ASR-System eine CER von 5,42 % bei einer Latenz von 640 ms.