Verbesserte Schulung von End-to-End-Aufmerksamkeitsmodellen für die Spracherkennung

Sequence-to-Sequence-Modelle mit Aufmerksamkeitsmechanismus auf Subworteinheiten ermöglichen eine einfache, offene Vokabular-End-to-End-Sprecherkennung. In dieser Arbeit zeigen wir, dass solche Modelle wettbewerbsfähige Ergebnisse bei den Switchboard 300-Stunden- und LibriSpeech 1000-Stunden-Aufgaben erzielen können. Insbesondere berichten wir über die derzeit besten Wortsfehlerraten (WER) von 3,54 % im dev-clean-Teil und 3,82 % im test-clean-Teil der LibriSpeech-Evaluationsdaten. Wir führen ein neues Vortrainingsverfahren ein, das mit einem hohen Zeitreduktionsfaktor beginnt und diesen während des Trainings senkt. Dies ist sowohl für die Konvergenz als auch für die endgültige Leistung entscheidend. In einigen Experimenten verwenden wir zudem eine zusätzliche CTC-Fehlerfunktion, um die Konvergenz zu unterstützen. Darüber hinaus trainieren wir Long Short-Term Memory (LSTM)-Sprachmodelle auf Subworteinheiten. Durch flache Fusion erreichen wir bis zu 27 % relative Verbesserungen der WER gegenüber dem Aufmerksamkeitsbaseline-Modell ohne Sprachmodell.