Command Palette
Search for a command to run...
GroundingME : Mettre en évidence le fossé de l'ancrage visuel dans les MLLM par évaluation multidimensionnelle
GroundingME : Mettre en évidence le fossé de l'ancrage visuel dans les MLLM par évaluation multidimensionnelle
Abstract
Le grounding visuel, qui consiste à localiser des objets à partir de descriptions linguistiques naturelles, représente un pont fondamental entre la compréhension du langage et celle de la vision. Bien que les modèles linguistiques à grande échelle multimodaux (MLLM) atteignent des performances remarquables sur les benchmarks existants, une question fondamentale demeure : ces MLLM peuvent-ils véritablement ancrer le langage dans la vision avec une sophistication comparable à celle des humains, ou ne font-ils que reconnaître des motifs sur des jeux de données simplifiés ? Les benchmarks actuels échouent à capturer la complexité du monde réel, où les humains naviguent aisément entre des références ambigües et reconnaissent intuitivement quand un ancrage est impossible. Pour évaluer rigoureusement les véritables capacités des MLLM, nous introduisons GroundingME, un benchmark qui défie systématiquement les modèles selon quatre dimensions critiques : (1) Discrimination, pour distinguer des objets très similaires ; (2) Spatialité, pour comprendre des descriptions relationnelles complexes ; (3) Limité, pour traiter des occlusions ou des objets de petite taille ; et (4) Rejet, pour reconnaître les requêtes non ancrables. Grâce à une curation soigneuse combinant génération automatisée et vérification humaine, nous avons constitué 1 005 exemples exigeants reflétant la complexité du monde réel. L’évaluation de 25 MLLM d’avant-garde révèle un écart de capacité profond : le meilleur modèle atteint seulement 45,1 % de précision, tandis que la plupart obtiennent 0 % sur les tâches de rejet, hallucinant systématiquement des objets plutôt que d’admettre leur absence — soulevant ainsi des préoccupations critiques en matière de sécurité pour tout déploiement. Nous explorons deux stratégies d’amélioration : (1) l’échelle au moment du test sélectionne la meilleure réponse selon une trajectoire de raisonnement, permettant d’améliorer le grounding complexe jusqu’à 2,9 % ; et (2) l’entraînement sur un mélange de données enseigne aux modèles à reconnaître les requêtes non ancrables, portant la précision du rejet de 0 % à 27,9 %. GroundingME se révèle ainsi à la fois comme un outil diagnostique mettant en lumière les limites actuelles des MLLM et comme une feuille de route vers un grounding visuel au niveau humain.