Ensemble De Données De Référence De Raisonnement Multimodal EMMA
Date
URL de publication
EMMA (Enhanced MultiModal reAsoning) est un ensemble de données de référence de raisonnement multimodal publié en 2025 par des équipes de recherche de l'Université des sciences et technologies électroniques de Chine, de l'Université Sun Yat-sen, de l'Université de Washington et de Microsoft. Les résultats pertinents de l'étude sont les suivants :Les MLLM peuvent-ils raisonner en multimodalité ? EMMA : une analyse comparative améliorée du raisonnement multimodal", qui vise à fournir une plate-forme de test standardisée pour évaluer les capacités de raisonnement complexes des grands modèles multimodaux (MLLM).
L'ensemble de données se concentre sur les tâches de raisonnement multimodal dans les domaines de la chimie organique (42%), des mathématiques (32%), de la physique (6%) et de la programmation (20%). Il contient 2 788 questions, dont 1 796 sont des échantillons nouvellement construits. Il prend en charge une division fine des tâches et vise à promouvoir la capacité de compréhension conjointe des images et des textes. Les types de tâches de données incluent la simulation de réactions chimiques, le raisonnement graphique mathématique, le traçage de chemins physiques, la visualisation de programmation, etc.
