Command Palette
Search for a command to run...

摘要
掩码扩散型大语言模型(dLLMs)正作为一种有前景的替代方案,逐渐取代自回归大语言模型。这类模型在保持竞争力性能的同时,还支持诸如图像修复(inpainting)等独特生成能力。本文探讨了如何利用图像修复能力来指导dLLMs的强化学习(RL)算法设计。将大语言模型与强化学习对齐面临一个关键挑战:当模型未能发现正确解时,奖励信号稀疏且样本利用率低下。尽管这种低效问题在大语言模型中普遍存在,但dLLMs提供了一个独特机遇——其图像修复能力可有效引导探索过程。为此,我们提出IGPO(Inpainting Guided Policy Optimization,基于图像修复的策略优化)框架,该框架在在线采样过程中有策略地插入部分真实推理路径。与直接提供完整解不同,图像修复能够将探索引导至有潜力的轨迹空间,同时保留模型自主生成的推理过程,从而在监督微调与强化学习之间建立有效桥梁。我们将IGPO应用于基于群体的优化方法(如GRPO),在这些方法中,探索失败会导致优势值和梯度为零。IGPO在恢复有意义梯度的同时,显著提升了样本效率。此外,我们还提出对通过合成重写生成的简洁推理路径进行监督微调,使其更契合dLLM的生成模式。结合熵基过滤等附加技术,我们的训练方法在三个数学基准测试(GSM8K、Math500和AMC)上均取得显著提升,为全注意力掩码dLLMs实现了新的最先进(SOTA)性能。