Command Palette
Search for a command to run...
Yicheng He Chengsong Huang Zongxia Li Jiaxin Huang Yonghui Yang

要約
強化学習(RL)は、複雑な推論タスクにおける視覚言語モデル(VLM)の性能向上に、体系的な枠組みを提供する。しかし、従来のRLアプローチは、検証可能な報酬を定義する際に、人手によるラベル付けやタスク固有のヒューリスティクスに依存しており、これらはいずれもコストが高く、スケーラビリティに課題がある。本研究では、大量のラベルなし画像データを活用してVLMが自律的に推論能力を向上させることを可能にする、自己進化型のRLフレームワーク「VisPlay」を提案する。VisPlayは、単一のベースVLMから出発し、モデルを二つの相互作用する役割に割り当てる:視覚情報に条件付けられた質問者(Image-Conditioned Questioner)は、挑戦的でありながら回答可能な視覚的質問を生成し、マルチモーダル推論者(Multimodal Reasoner)は「シルバー」回答(silver responses)を生成する。これらの役割は、質問の難易度とシルバー回答の品質のバランスを保つために、多様性と難易度の報酬を組み込んだ「グループ相対方策最適化(Group Relative Policy Optimization: GRPO)」により共同学習される。VisPlayは、二つのモデルファミリーにわたって効率的にスケーリング可能である。Qwen2.5-VLおよびMiMo-VLを用いて訓練した結果、MM-VetやMMMUを含む8つのベンチマークにおいて、視覚的推論能力、構成的汎化能力、幻覚(hallucination)の低減の観点で一貫した性能向上が確認された。本研究は、自己進化型マルチモーダル知能の実現に向けたスケーラブルな道筋を示している。プロジェクトページは以下のURLで公開されている:https://bruno686.github.io/VisPlay/