HyperAIHyperAI

Command Palette

Search for a command to run...

MM-Zero:基于零数据自进化的多模型视觉语言模型

摘要

自我进化已成为提升大型语言模型(LLM)和视觉语言模型(VLM)等基础模型性能的关键范式,其核心优势在于仅需极少量的人工干预。尽管近期研究已证明,LLM 智能体可在几乎无数据的情况下从零开始实现自我进化,但 VLM 因引入视觉模态,通常仍需至少部分种子数据(如图像)以启动自我进化过程。本文提出“多模型多模态零数据”(Multi-model Multimodal Zero,简称 MM-Zero)框架,这是首个基于强化学习(RL)实现 VLM 推理零数据自我进化的方法。不同于以往仅包含“提议者”(Proposer)与“求解者”(Solver)的双角色架构,MM-Zero 创新性地构建了一个包含三个专业化角色的多角色自我进化训练框架:提议者负责生成抽象视觉概念并构造相关问题;编码者(Coder)将这些概念转化为可执行代码(如 Python 或 SVG),以渲染生成视觉图像;求解者则对生成的视觉内容执行多模态推理。上述三个角色均从同一基座模型初始化,并采用组相对策略优化(Group Relative Policy Optimization, GRPO)进行训练。该框架设计了精心构造的奖励机制,融合执行反馈、视觉验证与难度平衡策略,以引导模型高效进化。实验结果表明,MM-Zero 在广泛的多模态基准测试中显著提升了 VLM 的推理性能。该工作为多模态模型的自我进化系统开辟了一条可扩展路径,将自我改进的边界从传统的“双模型”范式拓展至更复杂的“多模型”范式,推动了多模态智能体自主进化的前沿发展。

一句话总结

来自马里兰大学、布朗大学和 NVIDIA 的研究人员推出了 MM-Zero,这是首个强化学习框架,它通过采用由提议者(Proposer)、编码者(Coder)和求解者(Solver)组成的新颖三重角色系统,使视觉 - 语言模型能够生成并推理合成视觉内容,从而在不依赖外部数据的情况下实现自我进化。

主要贡献

  • MM-Zero 解决了视觉语言模型自我进化需要种子图像数据的瓶颈问题,通过引入首个通过自主视觉内容生成实现零数据训练的框架来应对这一挑战。
  • 该方法用新颖的三重角色流水线取代了传统的双重角色设置:提议者创建抽象概念,编码者将其渲染为可执行代码,求解者执行推理,所有角色均通过组相对策略优化(GRPO)进行优化。
  • 在 Qwen3-VL 和 Mimo-VL 模型上的实验表明,该方法在不依赖任何外部人工标注数据集的情况下,在多样化的多模态基准测试中均能带来一致的性能提升。

引言

自我进化范式为改进视觉语言模型(VLM)提供了一条可扩展的路径,通过减少对昂贵人工标注数据的依赖来实现,然而现有方法仍受限于对静态种子图像数据集的依赖。先前的方法通常采用双重角色的提议者 - 求解者框架,这些框架只能在预收集图像的固定分布内进行迭代,限制了生成训练场景的多样性和复杂性。作者利用一种名为 MM-Zero 的新型三重角色强化学习框架,通过引入专门的编码者角色来根据抽象概念程序化地渲染视觉内容,从而实现了真正的零数据自我进化。该系统使提议者、编码者和求解者能够在闭环中交互,模型无需任何外部输入即可生成自身的视觉训练数据和推理任务,显著拓展了自主多模态学习的前沿。

方法

作者提出了 MM-Zero,这是一个用于多模态大语言模型(MLLMs)的自我进化框架,利用具有可验证奖励的强化学习(RLVR)。该系统由三个从同一基础模型进化而来的不同模型代理组成:提议者(πP\pi_{P}πP)、编码者(πD\pi_{D}πD)和求解者(πS\pi_{S}πS)。这些代理在一个封闭的训练循环中运行,其中每个角色依次通过组相对策略优化(GRPO)进行优化,而其他角色保持冻结。

参考框架图以了解这些组件之间的交互。提议者生成一个四元组,包含细粒度的文本描述、一个带有已知答案的简单问题,以及一个需要多步推理的难题。编码者将文本描述转换为可执行代码(具体为 SVG)以渲染图像。随后,求解者处理渲染后的图像。它首先回答简单问题以验证语义正确性,提供奖励信号以更新编码者。随后,它通过多数投票回答难题,为其自身训练生成伪标签,同时提供难度奖励以优化提议者。

训练流程涉及模型的迭代进化。如下图所示,编码者和提议者在迭代过程中(从迭代 1 到迭代 3)不断改进,生成越来越复杂的视觉内容和问题。例如,编码者从渲染简单的堆叠条形图进化为渲染具有多个重叠圆形的复杂几何构造。提议者进化为生成更详细的标题和更难的问题,以推动求解者的推理能力。为了确保训练质量,作者应用了特定阶段的数据过滤器。对于编码者,他们保留渲染成功率落在特定范围内的示例,排除过于简单或不可能完成的任务。对于求解者,他们保留简单问题准确率高但难题准确率仍处于挑战性范围内的示例,确保模型在难度适当的数据上进行训练。

奖励公式是自我进化过程的核心。提议者接收一个分层奖励 Rp(x)R_{p}(x)Rp(x),用于验证格式、可解性和难度。这包括代码执行指示器、基于求解者在简单问题上准确率的解性分数,以及基于求解者在难题上自一致性的难度分数。难度分数遵循“金发姑娘原则”(Goldilocks principle),在求解者不确定性最大时达到峰值。此外,针对简单 - 难题不匹配和内容缺乏多样性应用了惩罚。

编码者的奖励基于执行状态、语义正确性(简单问题的可解性)和任务可行性(难题的难度)。求解者在没有真实标签的情况下针对难题进行训练,利用测试时强化学习(TTRL)。它生成多个推理路径,并通过多数投票确定一个“银标准”答案。求解者的奖励是答案相对于该共识的准确率与结构有效性的加权和,确保模型遵循思维链(Chain-of-Thought)格式,后跟一个框出的最终答案。

作者采用组相对策略优化(GRPO)来更新策略。给定提示 ppp,当前策略生成一组 NNN 个响应及其对应的奖励。这些奖励在组内进行归一化,以产生响应级别的优势 A^i\hat{A}_{i}A^i,用于最大化经过 KL 散度项正则化的截断代理目标。这种方法允许系统在不依赖学习到的价值函数的情况下提高推理和生成质量。

实验

  • 在通用视觉推理、数学视觉推理和幻觉检测基准测试上的求解者评估验证了,所提出的框架在不依赖外部数据的情况下提高了模型性能,其中在复杂的视觉数学任务中观察到了最显著的增益。
  • 在多种模型规模上的实验表明,该方法具有良好的泛化能力,尽管具有更强基础能力和更高图像渲染成功率的模型取得了更大的提升。
  • 对训练迭代的定性分析揭示了一个清晰的进化过程:生成的图像从杂乱无章、难以阅读演变为精致且忠实于描述,而问题则从简单的值提取演变为需要真正的多步组合推理。
  • 消融研究证实,限制可解性奖励可以防止模型通过将答案直接嵌入图像来利用捷径,而强制内容多样性可以避免对直方图等狭窄视觉类型的过拟合。
  • 在初始迭代之后继续训练表明,性能并未饱和,这表明自我进化的多模态模型自主提升推理能力是一条充满希望的道路。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供