Command Palette

Search for a command to run...

13 天前

基于图像修复引导的扩散型大语言模型策略优化

基于图像修复引导的扩散型大语言模型策略优化

摘要

掩码扩散型大语言模型(dLLMs)正作为一种有前景的替代方案,逐渐取代自回归大语言模型。这类模型在保持竞争力性能的同时,还支持诸如图像修复(inpainting)等独特生成能力。本文探讨了如何利用图像修复能力来指导dLLMs的强化学习(RL)算法设计。将大语言模型与强化学习对齐面临一个关键挑战:当模型未能发现正确解时,奖励信号稀疏且样本利用率低下。尽管这种低效问题在大语言模型中普遍存在,但dLLMs提供了一个独特机遇——其图像修复能力可有效引导探索过程。为此,我们提出IGPO(Inpainting Guided Policy Optimization,基于图像修复的策略优化)框架,该框架在在线采样过程中有策略地插入部分真实推理路径。与直接提供完整解不同,图像修复能够将探索引导至有潜力的轨迹空间,同时保留模型自主生成的推理过程,从而在监督微调与强化学习之间建立有效桥梁。我们将IGPO应用于基于群体的优化方法(如GRPO),在这些方法中,探索失败会导致优势值和梯度为零。IGPO在恢复有意义梯度的同时,显著提升了样本效率。此外,我们还提出对通过合成重写生成的简洁推理路径进行监督微调,使其更契合dLLM的生成模式。结合熵基过滤等附加技术,我们的训练方法在三个数学基准测试(GSM8K、Math500和AMC)上均取得显著提升,为全注意力掩码dLLMs实现了新的最先进(SOTA)性能。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供