9 天前

SparseGPT:大规模语言模型可实现一次性精准剪枝

Elias Frantar, Dan Alistarh
SparseGPT:大规模语言模型可实现一次性精准剪枝
摘要

我们首次证明,大规模生成式预训练变换器(GPT)系列模型可在无需任何微调的情况下,通过一次性剪枝实现至少50%的稀疏度,且准确率损失极小。这一成果得益于一种专为高效、精准处理大规模GPT系列模型而设计的新剪枝方法——SparseGPT。我们可在不到4.5小时内完成对目前最大规模的开源模型OPT-175B和BLOOM-176B的剪枝,达到60%的非结构化稀疏度,同时困惑度(perplexity)几乎无增长:令人瞩目的是,在推理阶段,这些模型中超过1000亿个权重可被忽略。SparseGPT还可推广至半结构化剪枝模式(如2:4和4:8),并与权重量化方法兼容。相关代码已开源,地址为:https://github.com/IST-DASLab/sparsegpt。