Modèles de réseaux neuronaux récurrents basés sur l'attention pour la détection conjointe de l'intention et le remplissage des slots

Les modèles de réseaux neuronaux à encodeur-décodeur basés sur l'attention ont récemment montré des résultats prometteurs dans la traduction automatique et la reconnaissance vocale. Dans ce travail, nous proposons un modèle de réseau neuronal basé sur l'attention pour la détection conjointe de l'intention et le remplissage des slots, deux étapes cruciales pour de nombreux systèmes de compréhension vocale et de dialogue. Contrairement à la traduction automatique et à la reconnaissance vocale, l'alignement est explicite dans le remplissage des slots. Nous explorons différentes stratégies pour intégrer ces informations d'alignement au cadre encodeur-décodeur. En nous inspirant du mécanisme d'attention dans les modèles encodeur-décodeur, nous proposons également d'introduire l'attention dans les modèles RNN basés sur l'alignement. Ces attentions fournissent des informations supplémentaires pour la classification des intentions et la prédiction des labels de slots. Nos modèles indépendants pour les tâches atteignent un taux d'erreur record en détection d'intention et un score F1 record en remplissage de slots sur la tâche de référence ATIS. Notre modèle d'apprentissage conjoint obtient une réduction absolue de 0,56 % (23,8 % relative) de l'erreur en détection d'intention et une amélioration absolue de 0,23 % en remplissage de slots par rapport aux modèles indépendants pour les tâches.