HyperAIHyperAI

Command Palette

Search for a command to run...

GroundingME : Mettre en évidence le fossé de l'ancrage visuel dans les MLLM par évaluation multidimensionnelle

Abstract

Le grounding visuel, qui consiste à localiser des objets à partir de descriptions linguistiques naturelles, représente un pont fondamental entre la compréhension du langage et celle de la vision. Bien que les modèles linguistiques à grande échelle multimodaux (MLLM) atteignent des performances remarquables sur les benchmarks existants, une question fondamentale demeure : ces MLLM peuvent-ils véritablement ancrer le langage dans la vision avec une sophistication comparable à celle des humains, ou ne font-ils que reconnaître des motifs sur des jeux de données simplifiés ? Les benchmarks actuels échouent à capturer la complexité du monde réel, où les humains naviguent aisément entre des références ambigües et reconnaissent intuitivement quand un ancrage est impossible. Pour évaluer rigoureusement les véritables capacités des MLLM, nous introduisons GroundingME, un benchmark qui défie systématiquement les modèles selon quatre dimensions critiques : (1) Discrimination, pour distinguer des objets très similaires ; (2) Spatialité, pour comprendre des descriptions relationnelles complexes ; (3) Limité, pour traiter des occlusions ou des objets de petite taille ; et (4) Rejet, pour reconnaître les requêtes non ancrables. Grâce à une curation soigneuse combinant génération automatisée et vérification humaine, nous avons constitué 1 005 exemples exigeants reflétant la complexité du monde réel. L’évaluation de 25 MLLM d’avant-garde révèle un écart de capacité profond : le meilleur modèle atteint seulement 45,1 % de précision, tandis que la plupart obtiennent 0 % sur les tâches de rejet, hallucinant systématiquement des objets plutôt que d’admettre leur absence — soulevant ainsi des préoccupations critiques en matière de sécurité pour tout déploiement. Nous explorons deux stratégies d’amélioration : (1) l’échelle au moment du test sélectionne la meilleure réponse selon une trajectoire de raisonnement, permettant d’améliorer le grounding complexe jusqu’à 2,9 % ; et (2) l’entraînement sur un mélange de données enseigne aux modèles à reconnaître les requêtes non ancrables, portant la précision du rejet de 0 % à 27,9 %. GroundingME se révèle ainsi à la fois comme un outil diagnostique mettant en lumière les limites actuelles des MLLM et comme une feuille de route vers un grounding visuel au niveau humain.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GroundingME : Mettre en évidence le fossé de l'ancrage visuel dans les MLLM par évaluation multidimensionnelle | Papers | HyperAI