19 days ago
细粒度偏好优化改进了VLM中的空间推理能力
Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg, Ismini Lourentzou

摘要
当前的视觉-语言模型(VLMs)在细粒度空间推理方面存在困难,尤其是在需要多步骤逻辑和精确空间对齐的情况下。在这项工作中,我们引入了SpatialReasoner-R1,这是一种专门设计用于克服这些限制的视觉-语言推理模型。为了构建高质量的空间推理监督数据,我们设计了一种多模型蒙特卡洛树搜索(Multi-Model Monte Carlo Tree Search, M3CTS)方法,该方法生成多样且逻辑一致的长链思考(Long Chain-of-Thought, LongCoT)推理轨迹。此外,我们提出了细粒度直接偏好优化(fine-grained Direct Preference Optimization, fDPO),通过引入描述性接地和逻辑推理的段落特定偏好粒度,并由评估候选响应的视觉一致性、空间接地和逻辑连贯性的空间奖励机制引导。实验结果表明,fDPO在空间质量任务上比标准DPO平均提高了4.1%,在空间数量任务上提高了9.0%。使用fDPO训练的SpatialReasoner-R1在SPATIALRGPT-Bench基准测试中达到了新的最先进水平(State-of-The-Art, SoTA),其平均准确率比最强基线高9.8%,同时在一般视觉-语言任务中也保持了竞争力。