HyperAI超神経
19日前

微細な嗜好最適化がVLMにおける空間推論を改善する

Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg, Ismini Lourentzou
微細な嗜好最適化がVLMにおける空間推論を改善する
要約

現在のビジョン・ランゲージモデル(VLMs)は、特に多段階の論理と精密な空間配置が求められる場合に、細かい空間推論に苦戦しています。本研究では、これらの制限を解決するために設計されたビジョン・ランゲージ推論モデル「SpatialReasoner-R1」を導入します。高品質な空間推論の監督データを構築するため、私たちは多様で論理的に一貫した「Long Chain-of-Thought(LongCoT)」推論軌道を生成するマルチモデルモンテカルロ木探索(M3CTS)手法を設計しました。さらに、視覚的一致性、空間的な根拠付け、および論理性に基づいて候補レスポンスを評価する空間報酬メカニズムによってガイドされる「fine-grained Direct Preference Optimization(fDPO)」を提案します。fDPOは、記述的な根拠付けと論理的推論においてセグメントごとの好みの粒度を導入し、空間品質タスクにおいて標準的なDPOに対して平均4.1%の改善を達成し、空間量タスクにおいて9.0%の向上を示しました。fDPOで訓練されたSpatialReasoner-R1は、SPATIALRGPT-Benchにおいて新しい最先端(SoTA)を樹立し、最強のベースラインよりも平均精度で9.8%上回りながら、一般的なビジョン・ランゲージタスクでも競争力のある性能を維持しています。