Command Palette

Search for a command to run...

6日前

VisPlay:画像から自己進化する視覚言語モデル

Yicheng He Chengsong Huang Zongxia Li Jiaxin Huang Yonghui Yang

VisPlay:画像から自己進化する視覚言語モデル

要約

強化学習(RL)は、複雑な推論タスクにおける視覚言語モデル(VLM)の性能向上に、体系的な枠組みを提供する。しかし、従来のRLアプローチは、検証可能な報酬を定義する際に、人手によるラベル付けやタスク固有のヒューリスティクスに依存しており、これらはいずれもコストが高く、スケーラビリティに課題がある。本研究では、大量のラベルなし画像データを活用してVLMが自律的に推論能力を向上させることを可能にする、自己進化型のRLフレームワーク「VisPlay」を提案する。VisPlayは、単一のベースVLMから出発し、モデルを二つの相互作用する役割に割り当てる:視覚情報に条件付けられた質問者(Image-Conditioned Questioner)は、挑戦的でありながら回答可能な視覚的質問を生成し、マルチモーダル推論者(Multimodal Reasoner)は「シルバー」回答(silver responses)を生成する。これらの役割は、質問の難易度とシルバー回答の品質のバランスを保つために、多様性と難易度の報酬を組み込んだ「グループ相対方策最適化(Group Relative Policy Optimization: GRPO)」により共同学習される。VisPlayは、二つのモデルファミリーにわたって効率的にスケーリング可能である。Qwen2.5-VLおよびMiMo-VLを用いて訓練した結果、MM-VetやMMMUを含む8つのベンチマークにおいて、視覚的推論能力、構成的汎化能力、幻覚(hallucination)の低減の観点で一貫した性能向上が確認された。本研究は、自己進化型マルチモーダル知能の実現に向けたスケーラブルな道筋を示している。プロジェクトページは以下のURLで公開されている:https://bruno686.github.io/VisPlay/

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VisPlay:画像から自己進化する視覚言語モデル | 論文 | HyperAI超神経