HyperAI
il y a 14 heures

C3 : Une base de données bilingue pour les modèles de dialogue parlé explorant les défis posés par les conversations complexes

Chengqian Ma, Wei Tao, Yiwen Guo
C3 : Une base de données bilingue pour les modèles de dialogue parlé explorant les défis posés par les conversations complexes
Résumé

Les modèles de dialogue parlé (Spoken Dialogue Models, SDMs) ont récemment suscité un intérêt croissant en raison de leur capacité à générer des réponses vocales directement en réponse aux requêtes orales des utilisateurs. Malgré leur popularité croissante, un manque subsiste en matière de recherches visant à comprendre de manière exhaustive leur efficacité pratique dans la compréhension et la reproduction des interactions conversationnelles humaines. Ce constat est particulièrement marqué par rapport aux grands modèles linguistiques (Large Language Models, LLMs) basés sur le texte, qui bénéficient d’une évaluation extensive via des benchmarks. Les interactions orales humaines sont intrinsèquement plus complexes que les échanges textuels, en raison de caractéristiques propres au dialogue parlé. L’ambiguïté constitue l’un des principaux défis, résultant à la fois de facteurs sémantiques tels que la polysemy, et d’aspects phonologiques comme les homographes, les homonymes et les schémas d’accentuation. En outre, la dépendance au contexte — par exemple, l’omission, la coreférence ou les dialogues à plusieurs tours — ajoute une complexité supplémentaire aux dynamiques conversationnelles humaines. Afin d’éclairer l’état actuel du développement des SDMs et de relever ces défis, nous proposons dans cet article un jeu de données de benchmark comprenant 1 079 instances en anglais et en chinois. Accompagné d’une méthode d’évaluation basée sur les LLMs, étroitement alignée sur l’évaluation humaine, ce jeu de données permet une exploration approfondie des performances des SDMs face à ces défis concrets.