强化学习助力新型扩散语言模型d1提升推理能力
加州大学洛杉矶分校的一支人工智能研究团队与Meta AI的一位同事合作,最近推出了一种名为d1的新框架。这一框架基于扩散型语言模型(dLLM),并结合了强化学习技术,以提升模型的推理能力。研究人员已将描述他们工作及新框架特点的论文发布在arXiv预印本服务器上。 过去几年间,大型语言模型(LLM)的应用呈爆炸式增长,数以百万计的人使用AI应用程序进行各种任务。这导致支持运行这些计算密集型应用的数据中心需要大量电力。因此,研究人员一直在寻找其他方式为用户提供AI服务。其中一种方法是使用扩散型大型语言模型(dLLM)作为LLM的替代或补充方案。与传统LLM不同,dLLMs不采用自回归方法,而是通过扩散技术生成答案。这一方法最初用于图像生成,通过向图像添加大量噪声来训练模型逆向处理直至只剩原图。对于文本处理,研究人员将字母或单词转换为类似像素的标记,然后逐步擦除标记至只剩噪声,再训练模型逆向生成原始标记。 尽管dLLMs具有更高的能效,但其推理能力较弱成为发展的瓶颈。加州大学的研究团队正是针对这一点进行了改进。他们在dLLM中引入了两阶段的强化学习过程。首先,使用高质量数据对训练集进行监督微调。其次,引入了一种名为diffu-GRPO的算法,该算法利用数学原理进行高层次的估计,并结合“随机提示掩码”技术。测试结果显示,d1在数学和逻辑推理任务中的表现优于基础LLaDA-8BInstruct模型。 研究团队认为,他们的框架已经准备好接受其它机构的测试,可能会被更广泛地采纳。他们指出,相比于传统的LLMs,d1需要较少的计算资源,并在推理任务上表现出色,显示出其在AI领域的巨大潜力。此外,d1还可能在其他领域,如创意写作、代码生成等任务中发挥作用。 业内人士对此表示高度关注。强化学习在dLLM中的应用被认为是提高模型性能的重要突破。加州大学洛杉矶分校和Meta AI的合作进一步证明了学术界与工业界的紧密合作在推动AI技术发展中的重要性。这一成果不仅有望解决能耗问题,还能促进AI模型的广泛应用。加州大学洛杉矶分校在人工智能研究方面拥有深厚积累,而Meta AI则是业界领先的AI实验室之一,双方的合作无疑为未来的AI技术革新铺平了道路。