Command Palette

Search for a command to run...

23 天前

MM-HELIX:通过整体平台与自适应混合策略优化提升多模态长链反思推理

MM-HELIX:通过整体平台与自适应混合策略优化提升多模态长链反思推理

摘要

尽管当前的多模态大语言模型(MLLMs)在数学与逻辑等推理任务中已展现出卓越能力,但其在长链反思式推理方面的能力——这一解决复杂现实问题所必需的关键能力——仍鲜有深入研究。在本工作中,我们首先开展了一项广泛的实证研究,以评估该能力。借助一个精心设计的数据合成引擎,我们构建了MM-HELIX,一个包含1,260个样本、涵盖42个具有挑战性的合成任务的多模态基准测试集,这些任务要求模型进行迭代思考与回溯推理。在该基准上的实证结果表明,现有MLLMs在长链反思式推理任务中存在显著性能短板。为应对这一局限,我们生成了后训练数据,并进一步探索了利用此类数据的学习范式。我们首先提出“步骤诱导响应生成”(Step-Elicited Response Generation)流程,构建了MM-HELIX-100K——一个包含10万条高质量、具有反思性质的推理轨迹的大型数据集,用于指令微调阶段。考虑到标准强化学习在复杂任务中因奖励信号稀疏以及监督微调后出现灾难性遗忘而失效,我们提出一种新型训练策略——自适应混合策略优化(Adaptive Hybrid Policy Optimization, AHPO),该策略能够动态地将离线监督与在线优化统一于单一训练阶段。该策略使模型在奖励稀疏时可从专家数据中学习,而在掌握一定能力后则能自主开展探索。将该方法应用于Qwen2.5-VL-7B基线模型时,我们在MM-HELIX基准上实现了+18.6%的准确率提升,并在通用数学与逻辑任务上展现出强大的泛化能力,平均性能提升达+5.7%。本研究证明,MLLMs中的反思式推理能力可以被有效学习并实现良好泛化,为构建更强大的多模态大语言模型开辟了新路径。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MM-HELIX:通过整体平台与自适应混合策略优化提升多模态长链反思推理 | 论文 | HyperAI超神经