Un modèle sensible au cadre et attentif aux résultats pour la compréhension de langage parlé à multiples intentions

La compréhension du langage parlé à plusieurs intentions (Multi-Intent Spoken Language Understanding, SLU), une nouvelle et plus complexe configuration de la SLU, suscite un intérêt croissant. Contrairement à la SLU traditionnelle, chaque intention dans ce cadre possède un domaine sémantique spécifique. Les informations sémantiques situées en dehors de ce domaine peuvent même perturber la prédiction, ce qui augmente considérablement la difficulté de la détection d’intention. Plus gravement, l’utilisation de ces étiquettes d’intention inexactes pour guider le remplissage des slots entraîne un phénomène de propagation d’erreurs, conduisant à des performances globales insatisfaisantes. Pour relever ces défis, nous proposons dans cet article un nouveau modèle, le Réseau d’Attention des Résultats Sensible au Domaine (Scope-Sensitive Result Attention Network, SSRAN), basé sur l’architecture Transformer, comprenant un Reconnaissleur de Domaine (Scope Recognizer, SR) et un Réseau d’Attention des Résultats (Result Attention Network, RAN). Le SR attribue à chaque mot une information de domaine, réduisant ainsi la distraction causée par les mots situés en dehors du domaine. Le RAN exploite efficacement l’interaction bidirectionnelle entre les résultats du remplissage des slots et ceux de la détection d’intention, atténuant ainsi le problème de propagation d’erreurs. Des expériences menées sur deux jeux de données publics montrent que notre modèle améliore significativement les performances de la SLU (respectivement +5,4 % et +2,1 % en précision globale) par rapport à l’état de l’art.