Aufmerksamkeitsmodell für die Erkennung artikulatorischer Merkmale
Artikulatorische Unterscheidungsmerkmale sowie phonetische Transkription spielen bei sprachbezogenen Aufgaben eine wichtige Rolle: computergestütztes Aussprachetraining, Text-zu-Sprache-Umwandlung (TTS), Studium der Spracherzeugungsmechanismen und Spracherkennung für ressourcenarme Sprachen. In den letzten Jahren erhielten end-to-end Ansätze für sprachbezogene Aufgaben viel Beachtung. Wir wenden die Listen, Attendieren und Schreiben (Listen, Attend and Spell, LAS) Architektur \cite{Chan-LAS2016} auf die Phonenerkennung an einem kleinen Trainingsdatensatz wie TIMIT \cite{TIMIT-1992} an. Darüber hinaus stellen wir eine neuartige Decodierungstechnik vor, die es ermöglicht, Detektoren für Artikulationsarten und -orte end-to-end unter Verwendung von Attention-Modellen zu trainieren. Wir untersuchen auch die gemeinsame Phonenerkennung und Artikulatorische-Merkmals-Detektion im Rahmen des Multitask-Learnings.