Modèle d'attention pour la détection des caractéristiques articulatoires
Les caractéristiques distinctives articulatoires ainsi que la transcription phonétique jouent un rôle important dans les tâches liées à la parole : formation à la prononciation assistée par ordinateur, conversion de texte en parole (TTS), étude des mécanismes de production de la parole, reconnaissance vocale pour les langues à ressources limitées. Les approches end-to-end ont connu une grande popularité ces dernières années dans le domaine des tâches liées à la parole. Nous appliquons l'architecture Listen, Attend and Spell (LAS) \cite{Chan-LAS2016} à la reconnaissance des phonèmes sur un petit ensemble d'apprentissage, comme TIMIT \cite{TIMIT-1992}. De plus, nous introduisons une nouvelle technique de décodage qui permet d'entraîner des détecteurs de modes et de lieux d'articulation de manière end-to-end en utilisant des modèles d'attention. Nous explorons également la reconnaissance conjointe des phonèmes et la détection des caractéristiques articulatoires dans un cadre d'apprentissage multitâche.