HyperAI超神经
17 days ago

可追溯证据增强的视觉基础推理:评估与方法学

Haochen Wang, Xiangtai Li, Zilong Huang, Anran Wang, Jiacong Wang, Tao Zhang, Jiani Zheng, Sule Bai, Zijian Kang, Jiashi Feng, Zhuochen Wang, Zhaoxiang Zhang
可追溯证据增强的视觉基础推理:评估与方法学
摘要

像OpenAI-o3这样的模型通过动态引用视觉区域开创了视觉基础推理的先河,就像人类“用图像思考”一样。然而,目前尚无全面评估这些能力的基准测试。为了填补这一空白,我们提出了TreeBench(可追溯证据评估基准),这是一个基于三个原则构建的诊断基准测试:(1) 在复杂场景中专注于细微目标的视觉感知,(2) 通过边界框评估实现可追溯证据,以及 (3) 二阶推理以测试对象交互和空间层次结构,而不仅仅是简单的对象定位。我们优先选择包含密集对象的图像,初步从SA-1B中采样了1000张高质量图像,并邀请八位LMM专家为每张图像手动标注问题、候选选项和答案。经过三阶段的质量控制后,TreeBench包含了405个具有挑战性的视觉问答对,即使是最先进的模型在这一基准测试上也表现不佳,没有一个模型能达到60%的准确率,例如OpenAI-o3仅得分为54.87。此外,我们引入了TreeVGR(可追溯证据增强的视觉基础推理),这是一种训练范式,通过强化学习联合监督定位和推理,从而实现精确的定位和可解释的推理路径。该模型初始化自Qwen2.5-VL-7B,在V* Bench(+16.8)、MME-RealWorld(+12.6)和TreeBench(+13.4)上的性能均有所提升,证明了可追溯性对于推进视觉基础推理至关重要。代码已发布在https://github.com/Haochen-Wang409/TreeVGR。