HyperAIHyperAI
il y a 2 mois

MIntRec : Un nouveau jeu de données pour la reconnaissance d'intention multimodale

Hanlei Zhang; Hua Xu; Xin Wang; Qianrui Zhou; Shaojie Zhao; Jiayan Teng
MIntRec : Un nouveau jeu de données pour la reconnaissance d'intention multimodale
Résumé

La reconnaissance d'intention multimodale est une tâche importante pour la compréhension du langage humain dans des scènes multimodales réelles. La plupart des méthodes existantes de reconnaissance d'intention ont des limites dans l'exploitation de l'information multimodale en raison des contraintes des jeux de données de référence qui ne contiennent que des informations textuelles. Cet article présente un nouveau jeu de données pour la reconnaissance d'intention multimodale (MIntRec) afin de résoudre ce problème. Il établit des taxonomies d'intentions à grains grossiers et fins basées sur les données collectées à partir de la série télévisée Superstore. Ce jeu de données comprend 2 224 échantillons de haute qualité avec des modalités textuelle, vidéo et audio, ainsi que des annotations multimodales parmi vingt catégories d'intention. De plus, nous fournissons des boîtes englobantes annotées des locuteurs dans chaque segment vidéo et réalisons un processus automatique pour l'annotation des locuteurs. MIntRec est utile aux chercheurs pour explorer les relations entre différentes modalités et améliorer la capacité de reconnaissance d'intention. Nous extrayons les caractéristiques de chaque modalité et modélisons les interactions intermodales en adaptant trois méthodes puissantes de fusion multimodale pour construire des lignes de base. Des expériences approfondies montrent que l'utilisation des modalités non verbales apporte une amélioration substantielle par rapport à la seule modalité textuelle, démontrant l'efficacité de l'utilisation de l'information multimodale pour la reconnaissance d'intention. L'écart entre les meilleures méthodes et les humains souligne le défi et l'importance de cette tâche pour la communauté. Le jeu de données complet et les codes sont disponibles à l'adresse suivante : https://github.com/thuiar/MIntRec.

MIntRec : Un nouveau jeu de données pour la reconnaissance d'intention multimodale | Articles de recherche récents | HyperAI