知识蒸馏 Knowledge Distillation

知识提炼是一种机器学习技术,旨在将大型预训练模型(「教师模型」)的学习成果转移到较小的「学生模型」。它在深度学习中用作模型压缩和知识转移的一种形式,特别适用于大规模深度神经网络。

知识提炼的目标是训练一个更紧凑的模型来模拟更大、更复杂的模型。传统深度学习的目标是训练人工神经网络,使其预测更接近训练数据集中提供的输出示例,而知识提炼的主要目标是训练学生网络,使其与教师网络的预测相匹配。

知识蒸馏 (KD) 最常用于具有多层和可学习参数的大型深度神经网络。这一过程与不断涌现的拥有数十亿个参数的大规模生成式 AI 模型尤为相关。

这一概念起源于 2006 年的一篇题为 「模型压缩」的论文。 Caruana 等人使用了当时最先进的分类模型(一个由数百个基础分类器组成的大型集成模型)来标记大型数据集,然后通过传统的监督学习在新标记的数据集上训练单个神经网络。

知识蒸馏技术已成功应用于各个领域,包括自然语言处理 (NLP) 、语音识别、图像识别和物体检测。近年来,知识蒸馏的研究对大型语言模型 (LLM) 尤为重要。对于 LLM,知识蒸馏已成为将先进功能从领先的专有模型转移到更小、更易于访问的开源模型的有效手段。

参考来源

【1】https://www.ibm.com/topics/knowledge-distillation