Einheitliches Streaming- und Nicht-Streaming-Zweipass-End-to-End-Modell für die Spracherkennung

In diesem Paper präsentieren wir einen neuartigen zweistufigen Ansatz, um Streaming- und Nicht-Streaming-End-to-End (E2E)-Spracherkennung in einem einzigen Modell zu vereinen. Unser Modell basiert auf der hybriden CTC/Attention-Architektur, wobei die Conformer-Layer im Encoder modifiziert werden. Wir schlagen eine dynamische, chunkbasierte Aufmerksamkeitsstrategie vor, die eine beliebige Länge des rechten Kontexts ermöglicht. Während der Inferenz generiert der CTC-Decoder n-Best-Hypothesen streamend. Die Inferenz-Latenz lässt sich einfach durch Anpassung der Chunk-Größe steuern. Anschließend werden die CTC-Hypothesen durch den Attention-Decoder neu bewertet, um das endgültige Ergebnis zu erhalten. Dieser effiziente Neubewertungsprozess verursacht nur eine geringe Satz-Latenz auf Ebene der Gesamtsentence. Unsere Experimente auf dem öffentlichen AISHELL-1-Datensatz mit 170 Stunden zeigen, dass die vorgeschlagene Methode die Vereinigung von Streaming- und Nicht-Streaming-Modellen einfach und effizient ermöglicht. Auf dem AISHELL-1-Testset erreicht unser vereinigtes Modell gegenüber einem standardmäßigen Nicht-Streaming-Transformer eine relative Reduktion des Zeichenfehlerquotienten (CER) um 5,60 % bei Nicht-Streaming-ASR. Das gleiche Modell erreicht bei einem Streaming-ASR-System eine CER von 5,42 % bei einer Latenz von 640 ms.