
摘要
尽管强化学习(RL)能够有效提升视觉-语言模型(VLMs)的推理能力,但现有方法仍严重依赖于人工密集型数据集,这些数据集需要大量手动构建与验证,导致训练成本极高,从而制约了VLM的实际部署。为应对这一挑战,我们提出Vision-Zero——一种领域无关的框架,通过任意图像对生成的对抗性视觉游戏,实现VLM的自我提升。具体而言,Vision-Zero具备三大核心特性:(1)策略性自对弈框架:Vision-Zero在“谁是卧底”风格的游戏中训练VLM,模型需在多个角色间进行策略性推理与行动。通过交互式游戏过程,模型可自主生成训练数据,无需人工标注。(2)基于任意图像的游戏生成:与现有游戏化框架不同,Vision-Zero能够从任意图像中生成游戏,从而提升模型在多样化领域中的推理能力,并展现出对各类任务的强大泛化性能。我们通过三类不同类型的图像数据集验证了其通用性:基于CLEVR的合成场景、图表数据以及真实世界图像。(3)可持续的性能提升:我们提出一种新型训练算法——迭代自对弈策略优化(Iterative Self-Play Optimization, Iterative-SPO),该算法在自对弈与可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)之间交替进行,有效缓解了纯自对弈训练中常见的性能瓶颈,实现了持续的长期性能提升。尽管采用无标签数据,Vision-Zero在推理、图表问答及视觉中心理解等任务上均达到当前最优性能,超越了其他依赖人工标注的方法。相关模型与代码已开源,地址为:https://github.com/wangqinsi1/Vision-Zero。