HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserte Schulung von End-to-End-Aufmerksamkeitsmodellen für die Spracherkennung

Albert Zeyer Kazuki Irie Ralf Schlüter Hermann Ney

Zusammenfassung

Sequence-to-Sequence-Modelle mit Aufmerksamkeitsmechanismus auf Subworteinheiten ermöglichen eine einfache, offene Vokabular-End-to-End-Sprecherkennung. In dieser Arbeit zeigen wir, dass solche Modelle wettbewerbsfähige Ergebnisse bei den Switchboard 300-Stunden- und LibriSpeech 1000-Stunden-Aufgaben erzielen können. Insbesondere berichten wir über die derzeit besten Wortsfehlerraten (WER) von 3,54 % im dev-clean-Teil und 3,82 % im test-clean-Teil der LibriSpeech-Evaluationsdaten. Wir führen ein neues Vortrainingsverfahren ein, das mit einem hohen Zeitreduktionsfaktor beginnt und diesen während des Trainings senkt. Dies ist sowohl für die Konvergenz als auch für die endgültige Leistung entscheidend. In einigen Experimenten verwenden wir zudem eine zusätzliche CTC-Fehlerfunktion, um die Konvergenz zu unterstützen. Darüber hinaus trainieren wir Long Short-Term Memory (LSTM)-Sprachmodelle auf Subworteinheiten. Durch flache Fusion erreichen wir bis zu 27 % relative Verbesserungen der WER gegenüber dem Aufmerksamkeitsbaseline-Modell ohne Sprachmodell.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verbesserte Schulung von End-to-End-Aufmerksamkeitsmodellen für die Spracherkennung | Paper | HyperAI