Raisonnement MME : Un benchmark complet pour l'évaluation du raisonnement logique dans les MLLMs

Le raisonnement logique est un aspect fondamental de l'intelligence humaine et une capacité essentielle pour les grands modèles linguistiques multimodaux (MLLMs). Malgré les progrès significatifs réalisés dans le domaine du raisonnement multimodal, les benchmarks existants échouent à évaluer de manière exhaustive leurs capacités de raisonnement en raison d'un manque de catégorisation explicite des types de raisonnement logique et d'une compréhension floue du raisonnement. Pour remédier à ces problèmes, nous présentons MME-Reasoning, un benchmark complet conçu pour évaluer la capacité de raisonnement des MLLMs, couvrant les trois types de raisonnement (à savoir, inductif, déductif et abductif) dans ses questions. Nous avons soigneusement sélectionné les données afin de garantir que chaque question évalue efficacement la capacité de raisonnement plutôt que les compétences perceptuelles ou la largeur des connaissances, et nous avons étendu les protocoles d'évaluation pour couvrir l'évaluation de questions diverses. Notre évaluation révèle des limitations substantielles des MLLMs les plus avancés lorsqu'ils sont soumis à des évaluations holistiques de leurs capacités de raisonnement logique. Même les modèles les plus sophistiqués montrent des performances limitées en matière de raisonnement logique global, avec des déséquilibres notables entre les différents types de raisonnement. De plus, nous avons mené une analyse approfondie des approches telles que le « mode de pensée » et le renforcement par apprentissage basé sur des règles (Rule-based RL), qui sont couramment considérées comme améliorant les capacités de raisonnement. Ces résultats mettent en lumière les limitations critiques et les déséquilibres de performance des MLLMs actuels dans divers scénarios de raisonnement logique, offrant ainsi des perspectives complètes et systématiques sur la compréhension et l'évaluation des capacités de raisonnement.