il y a 17 jours

FANS : Fusion de la reconnaissance vocale automatique et de la compréhension linguistique naturelle pour la reconnaissance de la parole en langue naturelle sur dispositif embarqué

Martin Radfar, Athanasios Mouchtaris, Siegfried Kunzmann, Ariya Rastrow

Résumé

Les systèmes de compréhension du langage parlé (SLU) transforment les commandes vocales en sémantique, codées sous la forme d’un intent (intention) ainsi que de paires de balises de champs (slot tags) et de leurs valeurs associées. La plupart des systèmes SLU actuels reposent sur une chaîne de deux modèles neuronaux : le premier convertit l’audio d’entrée en transcript (ASR), et le second prédit l’intention et les champs à partir du transcript (NLU). Dans cet article, nous présentons FANS, un nouveau modèle SLU end-to-end qui fusionne un encodeur audio ASR avec un décodeur NLU multitâche afin d’inférer directement l’intention, les balises de champs et les valeurs des champs à partir d’un audio d’entrée donné, éliminant ainsi la nécessité de transcription. FANS est composé d’un encodeur audio partagé et de trois décodeurs, dont deux sont des décodeurs séquence-à-séquence qui prédise en parallèle et de manière auto-régressive les balises de champs non nulles et leurs valeurs. Les architectures de l’encodeur et des décodeurs neuronaux de FANS sont flexibles, permettant d’exploiter différentes combinaisons de LSTM, d’attention auto-attentive et d’opérateurs d’attention. Nos expérimentations montrent que, par rapport aux modèles SLU end-to-end les plus avancés, FANS réduit respectivement les erreurs ICER et IRER de 30 % et 7 % sur un jeu de données SLU interne, et de 0,86 % et 2 % en valeur absolue sur un jeu de données SLU public.