Intégration de prompts pédagogiques dans un cadre génératif unifié pour une détection conjointe de multiples intentions et une remplissage de fentes

La détection multiple d’intentions (ID) et le remplissage d’emplacements (SF) conjoints constituent un défi majeur dans le domaine de la compréhension du langage parlé. Étant donné que les emplacements d’une utterance peuvent être liés à plusieurs intentions, la plupart des approches existantes se concentrent sur l’utilisation de composants spécifiques à la tâche afin de capturer les relations entre intentions et emplacements. Toutefois, ces réseaux sur mesure limitent la capacité des modèles à modéliser les similarités entre les tâches et à généraliser à des applications plus larges. Pour surmonter ce problème, nous proposons un cadre unifié génératif (UGEN) basé sur un paradigme fondé sur les prompts, et formulons la tâche comme un problème de réponse à des questions. Plus précisément, nous concevons cinq types de modèles (templates) agissant comme des prompts instructifs : chaque modèle inclut une question servant de moteur pour guider UGEN vers la compréhension du paradigme, des options listant les intentions ou emplacements candidats afin de réduire l’espace de recherche des réponses, ainsi que le contexte correspondant à l’utterance originale. Grâce à ces prompts instructifs, UGEN est guidé pour comprendre à la fois les intentions, les emplacements et leurs corrélations implicites. Sur deux jeux de données standardisées populaires pour la détection multi-intention, les résultats expérimentaux démontrent que UGEN atteint de nouvelles performances SOTA (state-of-the-art) sur les données complètes, et dépasse largement les modèles de référence dans les scénarios 5-shot (par +28,1 %) et 10-shot (par +23 %), confirmant ainsi la robustesse et l’efficacité de UGEN.