Aufmerksamkeitsbasierte Modelle für die Spracherkennung

Rekurrente Sequenzgeneratoren, die durch ein Aufmerksamkeitsmechanismus auf Eingangsdaten konditioniert sind, haben kürzlich bei einer Reihe von Aufgaben, einschließlich maschinellen Übersetzung, Schreibschriftsynthese und Bildunterschriftenerstellung, sehr gute Leistungen gezeigt. Wir erweitern den Aufmerksamkeitsmechanismus um Funktionen, die für die Spracherkennung erforderlich sind. Wir zeigen, dass während eine Anpassung des für maschinelle Übersetzung verwendeten Modells einen wettbewerbsfähigen Phonemfehlerquote (Phoneme Error Rate, PER) von 18,7 % auf der TIMIT-Phonemerkennungsaufgabe erreicht, es nur auf Aussprachen angewendet werden kann, die ungefähr so lang sind wie diejenigen, mit denen es trainiert wurde. Wir geben eine qualitative Erklärung für dieses Versagen und schlagen eine neuartige und generische Methode vor, um dem Aufmerksamkeitsmechanismus Ortsbewusstsein hinzuzufügen, um dieses Problem zu lindern. Das neue Verfahren führt zu einem Modell, das robust gegenüber langen Eingaben ist und eine Phonemfehlerquote von 18 % bei einzelnen Aussprachen und 20 % bei zehnmal längeren (wiederholten) Aussprachen erreicht. Schließlich schlagen wir eine Änderung am Aufmerksamkeitsmechanismus vor, die verhindert, dass er sich zu stark auf einzelne Frames konzentriert. Dies reduziert die Phonemfehlerquote weiter auf das Niveau von 17,6 %.