HyperAI
il y a 17 jours

Évaluation et Méthodologie du Raisonnement Visuel Ancré Basé sur des Preuves Traçables

Haochen Wang, Xiangtai Li, Zilong Huang, Anran Wang, Jiacong Wang, Tao Zhang, Jiani Zheng, Sule Bai, Zijian Kang, Jiashi Feng, Zhuochen Wang, Zhaoxiang Zhang
Évaluation et Méthodologie du Raisonnement Visuel Ancré Basé sur des Preuves Traçables
Résumé

Les modèles comme l'OpenAI-o3 ouvrent la voie à la raisonnement visuel ancré en faisant référence dynamiquement aux régions visuelles, tout comme le « penser avec des images » chez les humains. Cependant, aucun benchmark n'existe pour évaluer ces capacités de manière globale. Pour combler cette lacune, nous proposons TreeBench (Traceable Evidence Evaluation Benchmark), un benchmark diagnostique basé sur trois principes : (1) une perception visuelle ciblée des objets subtils dans des scènes complexes, (2) une preuve traçable par évaluation de boîtes englobantes, et (3) un raisonnement d'ordre supérieur pour tester les interactions entre objets et les hiérarchies spatiales au-delà de la simple localisation d'objets. En priorisant les images contenant des objets denses, nous avons initialement sélectionné 1 000 images de haute qualité provenant de SA-1B, et intégré huit experts en modèles linguistiques multimodaux (LMM) pour annoter manuellement les questions, les options candidates et les réponses pour chaque image. Après trois phases de contrôle qualité, TreeBench comprend 405 paires de questions-réponses visuelles difficiles, où même les modèles les plus avancés peinent face à ce benchmark, aucun d'eux n'atteignant 60% de précision, par exemple, l'OpenAI-o3 ne marque que 54,87%. De plus, nous introduisons TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning), un paradigme d'entraînement qui supervise conjointement la localisation et le raisonnement grâce à l'apprentissage par renforcement, permettant ainsi des localisations précises et des chemins de raisonnement explicables. Initialisé à partir du Qwen2.5-VL-7B, il améliore V* Bench (+16,8), MME-RealWorld (+12,6) et TreeBench (+13,4), démontrant que la traçabilité est essentielle pour faire progresser le raisonnement ancré dans la vision. Le code est disponible sur https://github.com/Haochen-Wang409/TreeVGR.