HyperAI超神经
Back to Headlines

苹果与香港大学合作推出DiffuCoder:首个“扩散原生”强化学习语言模型

5 days ago

苹果公司与香港大学组成的一支联合研究团队最近提出了一种新的语言模型DiffuCoder,并带来了第一个“扩散原生”的强化学习方案。这一创新的核心在于其采用了扩散式的生成机制,不同于传统的自回归模型从头到尾逐词生成文本的方式。DiffuCoder通过在序列中随机掩码([MASK])多个位置,然后逐步替换为实际词元,实现更灵活的文本生成方法。这种全局并行的生成方式尤其适合处理代码这类具有复杂结构依赖的任务。 研究发现,扩散模型在解码时并非完全随机的,而是受到文本数据固有序列性的显著影响。具体而言,模型对紧邻提示词右侧的位置表现出更高的预测置信度。这一现象被称为“焓池”(Entropy Sink)。同时,模型的这种“自回归性”程度会随任务类型变化:在生成数学问题等需要遵循特定顺序的步骤时,“自回归性”更为显著;而在生成代码时,这种特性则较弱。因此,DiffuCoder能够根据任务的具体要求调整生成策略,表现出更好的适应性和灵活性。 此外,研究团队发现采样温度(temperature)对扩散模型的影响也是双重的。在传统的自回归模型中,提高采样温度主要是增加词选择的多样性;但在扩撒模型中,温度的变化还会明显影响模型对“在哪个位置生成”的决策。具体来说,较低的采样温度虽然减少了生成的多样性,但有助于模型更好地保持局部一致性——即从左到右生成文本。而较高的温度虽然增加了生成的多样性和活力,但也可能导致模型不再严格遵循线性顺序,从而为后续的强化学习优化提供了更多方向。 为了验证和改进DiffuCoder,研究团队引入了一个名为“自回归性”(AR-ness)的指标,该指标综合评估了模型的局部连续性和全局顺序性。通过对“自回归性”的度量,团队能够更精准地分析模型的解码模式,并据此进行优化,以提升模型性能。 最终,实验结果显示,DiffuCoder在多个代码生成基准测试上表现优异,不仅生成质量和效率有了显著提升,还表现出更强的鲁棒性和适应性。例如,在CodeXGLUE等代码生成挑战赛中,DiffuCoder的多项指标均领先于现有方法。这些成果表明,扩散模型在编程任务中具有巨大潜力,有望成为未来语言模型的一个重要方向。 业内人士对此表示高度认可,认为DiffuCoder在编程领域开辟了新的道路,尤其是在生成高质量代码时表现出了传统自回归模型难以比拟的优势。香港大学在人工智能和自然语言处理领域一直有着深厚的研究积累,苹果公司在技术研发上的投入也为此次合作提供了强大的支持。此次研究不仅展示了两家机构在技术上的互补,也为今后类似的合作项目树立了典范。

Related Links