
摘要
LLaMA(Touvron 等,2023a;b)及其他近期涌现的中等规模大型语言模型(LLMs)的流行,凸显了构建更小但依然强大的 LLM 的潜力。然而,从头开始在数万亿个标记上训练此类模型的成本仍然高昂。在本研究中,我们探讨了结构化剪枝作为一种高效手段,用于从预训练的大规模模型中构建更小的 LLM。我们的方法结合了两项关键技术:(1)目标导向的结构化剪枝,通过端到端的方式移除层、注意力头以及中间和隐藏维度,将大模型剪枝至指定的目标结构;(2)动态批量加载,根据不同领域间损失的差异,动态调整每个训练批次中采样数据的组成。我们通过提出 Sheared-LLaMA 系列模型,验证了该方法的有效性,将 LLaMA2-7B 模型剪枝至 1.3B 和 2.7B 参数规模。在广泛的下游任务与指令微调评估中,Sheared-LLaMA 模型的表现优于同等规模的当前最先进开源模型,如 Pythia、INCITE、OpenLLaMA 以及同期发布的 TinyLlama 模型,且仅需相当于从头训练此类模型所需计算资源的 3%。本研究有力地表明,利用现有 LLM 并结合结构化剪枝,是构建具有竞争力的小规模 LLM 的一种远为经济高效的方法。