Détection conjointe de plusieurs intentions et remplissage de fentes par apprentissage contrastif supervisé et auto-distillation

La détection de plusieurs intentions et le remplissage des slots sont deux tâches fondamentales et essentielles dans la compréhension du langage parlé. Motivés par le fait que ces deux tâches sont étroitement corrélées, les modèles conjoints capables de détecter les intentions et d’extraire les slots simultanément sont préférés aux modèles indépendants qui traitent chaque tâche séparément. La précision d’un modèle conjoint dépend fortement de sa capacité à transférer efficacement des informations entre les deux tâches, de manière à ce que le résultat d’une tâche puisse corriger celui de l’autre. En outre, étant donné qu’un modèle conjoint produit plusieurs sorties, la question de son entraînement efficace constitue également un défi. Dans cet article, nous proposons une méthode pour la détection de plusieurs intentions et le remplissage des slots en abordant ces défis. Premièrement, nous introduisons un modèle conjoint bidirectionnel qui exploite explicitement les informations d’intention pour reconnaître les slots, tout en utilisant les caractéristiques des slots pour détecter les intentions. Deuxièmement, nous proposons une nouvelle méthode d’entraînement de ce modèle conjoint basée sur l’apprentissage contrastif supervisé et la self-distillation. Les résultats expérimentaux sur deux jeux de données standard, MixATIS et MixSNIPS, montrent que notre méthode surpasser les modèles de pointe dans les deux tâches. Les résultats démontrent également l’apport de la conception bidirectionnelle ainsi que de la méthode d’entraînement à l’amélioration de la précision. Le code source de notre travail est disponible à l’adresse suivante : https://github.com/anhtunguyen98/BiSLU