MULTI-Benchmark : Un Classement Pour La Compréhension Multimodale Avec Du Texte Et Des Images
Date
Taille
URL de publication
Catégories
Cet ensemble de données est le benchmark multimodal MULTI publié par l'Université Jiao Tong de Shanghai, qui vise à évaluer la capacité des grands modèles multimodaux à comprendre des tableaux et des images complexes et à effectuer un raisonnement sur des textes longs. Le test fournit des données multimodales et exige que les réponses soient précises ou ouvertes, reflétant un style d'examen réel. MULTI contient plus de 18 000 questions, couvrant une variété de tâches allant de la dérivation de formules à l'analyse d'images et au raisonnement intermodal.
L'équipe de recherche a également créé MULTI-Elite, un sous-ensemble soigneusement sélectionné de questions difficiles contenant 500 problèmes, et MULTI-Extend, un ensemble de données de plus de 4 500 contextes de connaissances externes. MULTI sert non seulement de plate-forme d’évaluation robuste, mais ouvre également la voie au développement d’une IA de niveau expert.