Command Palette
Search for a command to run...
Zustandsbehafteter Conformer mit cache-basierter Inferenz für streamende automatische Spracherkennung
Zustandsbehafteter Conformer mit cache-basierter Inferenz für streamende automatische Spracherkennung
Vahid Noroozi Somshubra Majumdar Ankur Kumar Jagadeesh Balam Boris Ginsburg
Zusammenfassung
In diesem Artikel stellen wir ein effizientes und genaues Modell zur Echtzeit-Spracherkennung vor, das auf der FastConformer-Architektur basiert. Wir haben die FastConformer-Architektur für Anwendungen im Echtzeitbetrieb angepasst, indem wir (1) sowohl den Vorwärts- als auch den Rückwärtskontext im Encoder einschränkten und (2) ein Aktivierungscaching-Mechanismus eingeführt haben, der es dem nicht-autoregressiven Encoder ermöglicht, während der Inferenz autoregressiv zu arbeiten. Das vorgeschlagene Modell wurde sorgfältig gestaltet, um die häufig bei vielen Echtzeit-Modellen auftretende Genauigkeitslücke zwischen Trainings- und Inferenzzeit zu beseitigen. Darüber hinaus ist unser vorgeschlagener Encoder mit verschiedenen Decoder-Konfigurationen kompatibel, darunter Decoder basierend auf Connectionist Temporal Classification (CTC) und RNN-Transducer (RNNT). Zudem haben wir eine hybride CTC/RNNT-Architektur vorgestellt, die einen gemeinsamen Encoder mit sowohl einem CTC- als auch einem RNNT-Decoder nutzt, um die Genauigkeit zu steigern und die Rechenkosten zu senken. Wir evaluieren das vorgeschlagene Modell anhand des LibriSpeech-Datensatzes sowie eines großskaligen, mehrdomänen Datensatzes und zeigen, dass es eine höhere Genauigkeit bei geringerer Latenz und Inferenzzeit im Vergleich zu einem herkömmlichen, gepufferten Echtzeit-Modell erreicht. Außerdem belegen wir, dass das Training eines Modells mit mehreren Latenzstufen eine bessere Genauigkeit liefert als Modelle mit nur einer Latenz, während gleichzeitig die Unterstützung mehrerer Latenzstufen mit einem einzigen Modell möglich ist. Unsere Experimente zeigen zudem, dass die hybride Architektur nicht nur die Konvergenzgeschwindigkeit des CTC-Decoders beschleunigt, sondern auch die Genauigkeit von Echtzeit-Modellen im Vergleich zu Modellen mit einzelnen Decodern verbessert.