Ensemble De Données De Référence D'évaluation Multimodale M2RAG
Date
URL de publication
M2RAG est un ensemble de données multimodales permettant d'évaluer les capacités des grands modèles linguistiques multimodaux (MLLM) dans des scénarios de recherche multimodale. Il vise à évaluer la capacité des MLLM à utiliser les connaissances documentaires de recherche multimodale dans des tâches telles que la description d'images, la réponse aux questions multimodales, la vérification des faits et le reclassement des images. Les résultats pertinents de l'article sontAnalyse comparative de la génération augmentée par récupération dans des contextes multimodaux".
Cet ensemble de données combine des données d'image et de texte pour simuler des tâches de recherche et de génération d'informations dans des scénarios réels, tels que l'analyse d'événements d'actualité et la réponse visuelle à des questions. Il se concentre sur l'évaluation de la capacité des MLLM à utiliser les connaissances documentaires récupérées dans des contextes multimodaux, y compris la compréhension du contenu de l'image, le raisonnement par association image-texte et le jugement des faits.
