17 天前

MiniLLM:大语言模型的知识蒸馏

Yuxian Gu, Li Dong, Furu Wei, Minlie Huang
MiniLLM:大语言模型的知识蒸馏
摘要

知识蒸馏(Knowledge Distillation, KD)是一种极具前景的技术,可用于降低大型语言模型(Large Language Models, LLMs)的高计算需求。然而,以往的KD方法主要应用于白盒分类模型,或训练小型模型以模仿黑盒模型API(如ChatGPT)的行为。如何高效地将白盒LLM的知识蒸馏到小型模型中,仍是尚未充分探索的重要问题,尤其在开源LLM迅速发展的背景下,这一问题愈发关键。在本工作中,我们提出了一种面向LLM的新型知识蒸馏方法,可将大型语言模型的知识有效迁移至更小的语言模型。我们首先将标准KD方法中使用的前向Kullback-Leibler散度(KLD)目标函数替换为反向KLD,该策略更适用于生成式语言模型的知识蒸馏,能够有效防止学生模型对教师模型分布中低概率区域的过度估计。随后,我们推导出一种高效的优化方法,以学习该目标函数。基于此方法训练的学生模型被命名为MiniLLM。在指令遵循(instruction-following)场景下的大量实验表明,与基线方法相比,MiniLLM生成的回答具有更高的准确性、更优的整体质量、更低的暴露偏差(exposure bias)、更好的校准性能,以及更强的长文本生成能力。此外,我们的方法在不同模型架构上均具备良好的可扩展性,支持参数量从120M到13B的多种模型家族。相关代码、数据及模型检查点已开源,详见:https://github.com/microsoft/LMOps/tree/main/minillm。

MiniLLM:大语言模型的知识蒸馏 | 最新论文 | HyperAI超神经