HyperAIHyperAI

Command Palette

Search for a command to run...

Aufmerksamkeitsbasierte Modelle für die Spracherkennung

Jan Chorowski Dzmitry Bahdanau Dmitriy Serdyuk Kyunghyun Cho Yoshua Bengio

Zusammenfassung

Rekurrente Sequenzgeneratoren, die durch ein Aufmerksamkeitsmechanismus auf Eingangsdaten konditioniert sind, haben kürzlich bei einer Reihe von Aufgaben, einschließlich maschinellen Übersetzung, Schreibschriftsynthese und Bildunterschriftenerstellung, sehr gute Leistungen gezeigt. Wir erweitern den Aufmerksamkeitsmechanismus um Funktionen, die für die Spracherkennung erforderlich sind. Wir zeigen, dass während eine Anpassung des für maschinelle Übersetzung verwendeten Modells einen wettbewerbsfähigen Phonemfehlerquote (Phoneme Error Rate, PER) von 18,7 % auf der TIMIT-Phonemerkennungsaufgabe erreicht, es nur auf Aussprachen angewendet werden kann, die ungefähr so lang sind wie diejenigen, mit denen es trainiert wurde. Wir geben eine qualitative Erklärung für dieses Versagen und schlagen eine neuartige und generische Methode vor, um dem Aufmerksamkeitsmechanismus Ortsbewusstsein hinzuzufügen, um dieses Problem zu lindern. Das neue Verfahren führt zu einem Modell, das robust gegenüber langen Eingaben ist und eine Phonemfehlerquote von 18 % bei einzelnen Aussprachen und 20 % bei zehnmal längeren (wiederholten) Aussprachen erreicht. Schließlich schlagen wir eine Änderung am Aufmerksamkeitsmechanismus vor, die verhindert, dass er sich zu stark auf einzelne Frames konzentriert. Dies reduziert die Phonemfehlerquote weiter auf das Niveau von 17,6 %.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Aufmerksamkeitsbasierte Modelle für die Spracherkennung | Paper | HyperAI