Ensemble De Données De Dialogue De Reconnaissance D'intention Multimodale MIntRec2.0
Date
URL de publication
Catégories
MIntRec2.0 est un ensemble de données de référence multimodales à grande échelle proposé par l'Université Tsinghua et d'autres, qui est spécifiquement utilisé pour identifier l'intention dans les conversations et détecter le contenu non intentionnel. Par rapport au MIntRec précédent, le volume de données de MIntRec2.0 a augmenté à 15 000, couvrant 30 catégories d'intention, et contient environ 9,3 000 phrases annotées intentionnellement et 5,7 000 phrases annotées hors intention, impliquant plusieurs modalités telles que le texte, la vidéo et l'audio.
L'ensemble de données comprend 1 245 dialogues, chacun comportant en moyenne 12 phrases. Chaque phrase est étiquetée avec une intention, et chaque dialogue implique au moins deux locuteurs, toutes les phrases étant étiquetées avec l'identité de l'orateur. De plus, pour répondre aux besoins des scénarios du monde ouvert, MIntRec2.0 introduit des balises OOS pour identifier les phrases qui n'appartiennent pas à des catégories d'intention connues afin d'améliorer la robustesse du système. Cet ensemble de données vise à promouvoir la recherche liée à la compréhension des intentions multimodales et à jeter des bases solides pour parvenir à une interaction homme-ordinateur plus naturelle et conduire à l'AGI.