vor einem Monat

Zusammenfassung

In diesem Artikel stellen wir ein effizientes und genaues Modell zur Echtzeit-Spracherkennung vor, das auf der FastConformer-Architektur basiert. Wir haben die FastConformer-Architektur für Anwendungen im Echtzeitbetrieb angepasst, indem wir (1) sowohl den Vorwärts- als auch den Rückwärtskontext im Encoder einschränkten und (2) ein Aktivierungscaching-Mechanismus eingeführt haben, der es dem nicht-autoregressiven Encoder ermöglicht, während der Inferenz autoregressiv zu arbeiten. Das vorgeschlagene Modell wurde sorgfältig gestaltet, um die häufig bei vielen Echtzeit-Modellen auftretende Genauigkeitslücke zwischen Trainings- und Inferenzzeit zu beseitigen. Darüber hinaus ist unser vorgeschlagener Encoder mit verschiedenen Decoder-Konfigurationen kompatibel, darunter Decoder basierend auf Connectionist Temporal Classification (CTC) und RNN-Transducer (RNNT). Zudem haben wir eine hybride CTC/RNNT-Architektur vorgestellt, die einen gemeinsamen Encoder mit sowohl einem CTC- als auch einem RNNT-Decoder nutzt, um die Genauigkeit zu steigern und die Rechenkosten zu senken. Wir evaluieren das vorgeschlagene Modell anhand des LibriSpeech-Datensatzes sowie eines großskaligen, mehrdomänen Datensatzes und zeigen, dass es eine höhere Genauigkeit bei geringerer Latenz und Inferenzzeit im Vergleich zu einem herkömmlichen, gepufferten Echtzeit-Modell erreicht. Außerdem belegen wir, dass das Training eines Modells mit mehreren Latenzstufen eine bessere Genauigkeit liefert als Modelle mit nur einer Latenz, während gleichzeitig die Unterstützung mehrerer Latenzstufen mit einem einzigen Modell möglich ist. Unsere Experimente zeigen zudem, dass die hybride Architektur nicht nur die Konvergenzgeschwindigkeit des CTC-Decoders beschleunigt, sondern auch die Genauigkeit von Echtzeit-Modellen im Vergleich zu Modellen mit einzelnen Decodern verbessert.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor einem Monat

Vahid Noroozi Somshubra Majumdar Ankur Kumar Jagadeesh Balam Boris Ginsburg

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor einem Monat

Vahid Noroozi Somshubra Majumdar Ankur Kumar Jagadeesh Balam Boris Ginsburg

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Zustandsbehafteter Conformer mit cache-basierter Inferenz für streamende automatische Spracherkennung

Vahid Noroozi Somshubra Majumdar Ankur Kumar Jagadeesh Balam Boris Ginsburg

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Zustandsbehafteter Conformer mit cache-basierter Inferenz für streamende automatische Spracherkennung

Vahid Noroozi Somshubra Majumdar Ankur Kumar Jagadeesh Balam Boris Ginsburg

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Zustandsbehafteter Conformer mit cache-basierter Inferenz für streamende automatische Spracherkennung

Vahid Noroozi Somshubra Majumdar Ankur Kumar Jagadeesh Balam Boris Ginsburg

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters