SRPO:通过反思感知的强化学习增强多模态LLM推理能力
Zhongwei Wan, Zhihao Dou, Che Liu, Yu Zhang, Dongfei Cui, Qinjian Zhao, Hui Shen, Jing Xiong, Yi Xin, Yifan Jiang, Yangfan He, Mi Zhang, Shen Yan
发布日期: 6/4/2025

摘要
多模态大语言模型(Multimodal Large Language Models, MLLMs)在推理任务中展现出了令人鼓舞的能力,但在需要显式自我反思和自我修正的复杂问题上仍面临挑战,尤其是在与单模态文本基础模型相比时。现有的反思方法较为简单,难以生成有意义且具指导性的反馈,因为预训练模型的推理能力和知识边界在初始训练过程中基本固定。为了解决这些难题,我们提出了一种基于群体相对策略优化(Group Relative Policy Optimization, GRPO)的多模态自我反思增强推理框架(SRPO),该框架专门设计用于提升多模态大语言模型的推理能力。在第一阶段,我们在高级MLLM的指导下构建了一个高质量、以反思为中心的数据集,该数据集通过生成基于初始响应的反思来帮助策略模型学习推理和自我反思。第二阶段,我们在GRPO框架内引入了一种新颖的奖励机制,旨在鼓励简洁且认知上有意义的反思,同时避免冗余。通过在多个多模态推理基准测试(包括MathVista、MathVision、MathVerse和MMMU-Pro)上进行广泛的实验,并使用Qwen-2.5-VL-7B和Qwen-2.5-VL-32B模型,结果表明SRPO显著优于现有最先进模型,在推理准确性和反思质量方面均取得了显著改进。