3 天前
量化与dLLMs的结合:面向扩散LLM的后训练量化系统性研究
Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, et al

摘要
近年来,扩散型大语言模型(dLLMs)的进展为自然语言生成任务提供了一种有前景的替代方案,相较于传统的自回归(AR)大语言模型,其采用全注意力机制与基于去噪的解码策略。然而,由于参数规模庞大且资源消耗高,这类模型在边缘设备上的部署仍面临严峻挑战。尽管训练后量化(PTQ)已成为压缩AR大语言模型的广泛应用技术,但其在dLLMs上的适用性尚未得到充分探索。本文首次系统性地研究了基于扩散机制的语言模型的量化问题。我们首先识别出激活值异常点的存在——即具有异常大激活值的神经元输出,这些值显著主导了激活值的动态范围。这类异常点对低比特量化构成关键挑战,因为它们使得在大多数正常值上保持精度变得极为困难。更重要的是,我们实现了当前最先进的PTQ方法,并在多种任务类型与模型变体上进行了全面评估。我们的分析从四个关键维度展开:比特位宽、量化方法、任务类别与模型类型。通过多维度的系统性评估,我们为不同配置下dLLMs的量化行为提供了切实可行的洞见。我们期望本研究的发现能为未来高效dLLM部署的相关研究奠定基础。所有代码与实验配置将公开发布,以支持学术社区的进一步研究。