8 个月前

摘要

大型语言模型（LLMs）在通用自然语言处理（NLP）任务中表现出显著的熟练度。指令调优是一种成功的范式，可以增强大型语言模型遵循自然语言指令的能力，并在各种任务中展现出强大的泛化性能。然而，这些模型在多个任务上经常遇到性能限制，这主要是由于模型容量有限所致。在指令调优阶段扩展模型容量面临着重大挑战。为了解决这一问题，我们引入了一种参数高效的稀疏性构建方法（Parameter-Efficient Sparsity Crafting, PESC），该方法利用专家混合（Mixture-of-Experts, MoE）架构将密集模型转化为稀疏模型。PESC通过在稀疏模型的MoE层中集成适配器来区分不同的专家，而不会改变这些层中的单个权重。这种方法显著降低了计算成本和GPU内存需求，在保证函数空间近似质量与原始稀疏再循环相当的情况下，通过最小的参数增加实现了模型容量的扩展。我们的实证评估表明了PESC方法的有效性。在指令调优过程中使用PESC，我们的最佳稀疏模型不仅优于其他稀疏和密集模型，而且相比GPT-3.5展现了更强的泛化能力。我们的代码已发布在https://github.com/wuhy68/Parameter-Efficient-MoE。

源 PDF