Le texte ne suffit plus ! Un benchmark pour la compréhension du langage parlé basée sur le profil

Les recherches actuelles en compréhension du langage parlé (SLU) sont fortement limitées à un cadre simplifié : la SLU basée sur le texte brut, qui prend l’énoncé utilisateur en entrée et génère les cadres sémantiques correspondants (par exemple, intention et champs). Malheureusement, ce cadre simplifié peut échouer dans des scénarios réels complexes lorsque l’énoncé est sémantiquement ambigu, situation que les modèles de SLU basés sur le texte ne peuvent pas traiter efficacement. Dans cet article, nous introduisons d’abord une nouvelle tâche importante, la Compréhension du Langage Parlé basée sur le Profil (ProSLU), qui exige que le modèle ne se fonde pas uniquement sur le texte brut, mais aussi sur des informations complémentaires issues du profil utilisateur, afin de prédire correctement les intentions et les champs. À cette fin, nous proposons également un nouveau jeu de données chinois à grande échelle, annoté par des humains, comprenant plus de 5 000 énoncés accompagnés de leurs informations de profil associées (Graphes de Connaissances (KG), Profil Utilisateur (UP), Conscience du Contexte (CA)). En outre, nous évaluons plusieurs modèles de pointe comme base de comparaison et explorons un adaptateur de connaissances multi-niveaux pour intégrer efficacement les informations de profil. Les résultats expérimentaux montrent que tous les modèles de SLU basés sur le texte échouent lorsqu’un énoncé est sémantiquement ambigu, tandis que notre cadre proposé parvient à fusionner efficacement les informations complémentaires pour la détection d’intention au niveau de la phrase et le remplissage de champs au niveau des tokens. Enfin, nous synthétisons les principaux défis identifiés et proposons de nouvelles directions pour les recherches futures, dans l’espoir de stimuler le développement de ce domaine.