AGIF : Un cadre graphique interactif adaptatif pour la détection conjointe de plusieurs intentions et le remplissage de champs

Dans les scénarios du monde réel, les utilisateurs ont généralement plusieurs intentions dans une même utterance. Malheureusement, la plupart des modèles de compréhension du langage parlé (SLU) se concentrent principalement sur le cas d'une seule intention, ou bien intègrent simplement un vecteur contextuel global d'intention pour tous les tokens, en ignorant ainsi l'intégration des informations fines sur plusieurs intentions pour la prédiction au niveau des slots. Dans cet article, nous proposons un cadre adaptatif à interaction graphique (AGIF) pour la détection conjointe de plusieurs intentions et le remplissage de slots, dans lequel nous introduisons une couche d'interaction graphique intention-slot afin de modéliser la forte corrélation entre les slots et les intentions. Cette couche d'interaction est appliquée de manière adaptative à chaque token, ce qui permet d'extraire automatiquement les informations pertinentes relatives aux intentions, favorisant ainsi une intégration fine des informations d'intention pour la prédiction au niveau des slots. Les résultats expérimentaux sur trois jeux de données multi-intentions montrent que notre cadre obtient une amélioration significative et atteint des performances de pointe (state-of-the-art). En outre, notre cadre atteint également de nouvelles performances de pointe sur deux jeux de données à une seule intention.