HyperAI

強化学習（RL）は、複雑な推論タスクにおける視覚言語モデル（VLM）の性能向上に、体系的な枠組みを提供する。しかし、従来のRLアプローチは、検証可能な報酬を定義する際に、人手によるラベル付けやタスク固有のヒューリスティクスに依存しており、これらはいずれもコストが高く、スケーラビリティに課題がある。本研究では、大量のラベルなし画像データを活用してVLMが自律的に推論能力を向上させることを可能にする、自己進化型のRLフレームワーク「VisPlay」を提案する。VisPlayは、単一のベースVLMから出発し、モデルを二つの相互作用する役割に割り当てる：視覚情報に条件付けられた質問者（Image-Conditioned Questioner）は、挑戦的でありながら回答可能な視覚的質問を生成し、マルチモーダル推論者（Multimodal Reasoner）は「シルバー」回答（silver responses）を生成する。これらの役割は、質問の難易度とシルバー回答の品質のバランスを保つために、多様性と難易度の報酬を組み込んだ「グループ相対方策最適化（Group Relative Policy Optimization: GRPO）」により共同学習される。VisPlayは、二つのモデルファミリーにわたって効率的にスケーリング可能である。Qwen2.5-VLおよびMiMo-VLを用いて訓練した結果、MM-VetやMMMUを含む8つのベンチマークにおいて、視覚的推論能力、構成的汎化能力、幻覚（hallucination）の低減の観点で一貫した性能向上が確認された。本研究は、自己進化型マルチモーダル知能の実現に向けたスケーラブルな道筋を示している。プロジェクトページは以下のURLで公開されている：https://bruno686.github.io/VisPlay/

VisPlay：画像から自己進化する視覚言語モデル

Yicheng He Chengsong Huang Zongxia Li Jiaxin Huang Yonghui Yang

要約

AI で AI を構築

Hyper Newsletters

Command Palette

VisPlay：画像から自己進化する視覚言語モデル

Yicheng He Chengsong Huang Zongxia Li Jiaxin Huang Yonghui Yang

要約

AI で AI を構築

Hyper Newsletters