
強化学習(RL)は、視覚言語モデル(VLM)の推論能力を効果的に向上させられるものの、現行の手法は人的労力が大幅にかかるデータセットに強く依存しており、膨大な手作業によるデータ構築と検証が必要であるため、極めて高い学習コストを伴い、結果としてVLMの実用的導入を制限している。この課題に対処するため、本研究では、任意の画像ペアから生成される競争型視覚ゲームを通じてVLMの自己改善を可能にする、ドメインに依存しないフレームワーク「Vision-Zero」を提案する。具体的には、Vision-Zeroは以下の3つの主要な特徴を備える。(1)戦略的自己対戦フレームワーク:Vision-Zeroは「誰がスパイか」をテーマとするゲーム形式でVLMを訓練し、モデルが複数の役割を跨いで戦略的推論と行動を実行する。インタラクティブなゲームプレイを通じて、モデルは人間によるラベル付けなしに自主的に学習データを生成する。(2)任意の画像からのゲーム生成:既存のゲーム化フレームワークとは異なり、Vision-Zeroは任意の画像からゲームを生成可能であり、多様なドメインにわたるモデルの推論能力を強化し、さまざまなタスクへの優れた汎化性能を示す。本研究では、CLEVRを基盤とした合成シーン、チャート、実世界画像という3種類の異なる画像データセットを用いて、その柔軟性を実証している。(3)持続的な性能向上:本研究では、自己対戦と検証可能な報酬を用いた強化学習(RLVR)を交互に実行する「反復的自己対戦ポリシー最適化(Iterative-SPO)」という新たな学習アルゴリズムを導入することで、単なる自己対戦による性能の飽和を緩和し、長期的に持続的な性能向上を実現した。ラベルなしデータのみを用いるにもかかわらず、Vision-Zeroは推論、チャート質問応答、視覚中心の理解タスクにおいて、従来のラベル付きデータに基づく手法を上回る最先端の性能を達成した。モデルとコードは、https://github.com/wangqinsi1/Vision-Zero にて公開されている。