Command Palette
Search for a command to run...

要約
大規模なマルチモーダルモデル(LMM)が画像操作と長期的推論能力を深く統合できるようにするという課題は、本分野において長年の難問として残っている。近年の視覚中心型推論の進展により、「画像で考える(Thinking with Images)」という有望な枠組みが提唱され、画像支援型の推論から画像対話型の思考へとアプローチが転換しつつある。この一歩は、モデルが画像の細部領域に注目できるようにする点で画期的であるが、視覚的ツール空間の制限やタスク特化型のワークフロー設計の限界により、さらなる進展は妨げられている。本研究では、エンド・トゥ・エンドの強化学習を用いて、対話的かつ視覚中心型の思考を可能にする汎用的なマルチモーダル推論アシスタント「V-Thinker」を提案する。V-Thinkerは以下の2つの主要な構成要素からなる:(1)多様性、品質、難易度の3次元にわたって、自動的に推論データセットを合成・進化・検証する「データ進化フライホイール(Data Evolution Flywheel)」;(2)点レベルの監視により知覚を初期化し、2段階の強化学習フレームワークを用いて対話型推論を統合する「視覚的段階的学習カリキュラム(Visual Progressive Training Curriculum)」。さらに、視覚中心型対話型推論タスクに特化したエキスパート検証型ベンチマーク「VTBench」を導入する。広範な実験により、V-Thinkerが一般推論および対話型推論の両シナリオにおいて、強力なLMMベースのベースラインを一貫して上回ることを示した。本研究は、画像対話型推論の応用を前進させるための貴重な知見を提供する。