
摘要
大型语言模型(LLMs)在通用自然语言处理(NLP)任务中表现出显著的熟练度。指令调优是一种成功的范式,可以增强大型语言模型遵循自然语言指令的能力,并在各种任务中展现出强大的泛化性能。然而,这些模型在多个任务上经常遇到性能限制,这主要是由于模型容量有限所致。在指令调优阶段扩展模型容量面临着重大挑战。为了解决这一问题,我们引入了一种参数高效的稀疏性构建方法(Parameter-Efficient Sparsity Crafting, PESC),该方法利用专家混合(Mixture-of-Experts, MoE)架构将密集模型转化为稀疏模型。PESC通过在稀疏模型的MoE层中集成适配器来区分不同的专家,而不会改变这些层中的单个权重。这种方法显著降低了计算成本和GPU内存需求,在保证函数空间近似质量与原始稀疏再循环相当的情况下,通过最小的参数增加实现了模型容量的扩展。我们的实证评估表明了PESC方法的有效性。在指令调优过程中使用PESC,我们的最佳稀疏模型不仅优于其他稀疏和密集模型,而且相比GPT-3.5展现了更强的泛化能力。我们的代码已发布在https://github.com/wuhy68/Parameter-Efficient-MoE。