Command Palette
Search for a command to run...
Yicheng He Chengsong Huang Zongxia Li Jiaxin Huang Yonghui Yang

摘要
强化学习(Reinforcement Learning, RL)为提升视觉-语言模型(Vision-Language Models, VLMs)在复杂推理任务上的表现提供了一个严谨的框架。然而,现有的RL方法通常依赖人工标注的标签或针对特定任务设计的启发式规则来定义可验证的奖励信号,而这些方式成本高昂且难以扩展。为此,我们提出VisPlay——一种自演化强化学习框架,使VLM能够利用大量未标注图像数据,自主提升其推理能力。VisPlay从单一基础VLM出发,赋予模型两个相互协作的角色:图像条件化提问者(Image-Conditioned Questioner),负责生成具有挑战性但可回答的视觉问题;以及多模态推理者(Multimodal Reasoner),负责生成高质量的“银标签”(silver)回答。这两个角色通过群体相对策略优化(Group Relative Policy Optimization, GRPO)进行联合训练,该方法引入多样性与难度奖励机制,有效平衡所生成问题的复杂性与银标签回答的质量。VisPlay在两个主流模型家族上均展现出良好的可扩展性。在Qwen2.5-VL和MiMo-VL上进行训练后,VisPlay在八个基准测试中均实现了视觉推理能力、组合泛化性能以及幻觉抑制的持续提升,涵盖MM-Vet和MMMU等权威评测集,验证了其在构建自演化多模态智能系统方面的可扩展路径。项目主页详见:https://bruno686.github.io/VisPlay/