15 天前

MixLoRA:基于LoRA的专家混合方法增强大语言模型微调

Dengchun Li, Yingzi Ma, Naizheng Wang, Zhengmao Ye, Zhiyuan Cheng, Yinghao Tang, Yan Zhang, Lei Duan, Jie Zuo, Cal Yang, Mingjie Tang
MixLoRA:基于LoRA的专家混合方法增强大语言模型微调
摘要

微调大型语言模型(LLM)是将预训练模型适配至特定应用场景的常用方法。尽管LoRA等方法在微调过程中有效缓解了GPU显存瓶颈,但其性能在多任务场景下往往表现不足。相比之下,混合专家模型(Mixture-of-Experts, MoE)如Mixtral 8x7B,在多任务学习中展现出卓越的性能,同时保持较低的参数量。然而,这类MoE模型的资源消耗依然较高,尤其对显存低于24GB的消费级GPU而言仍具挑战性。为应对上述挑战,我们提出MixLoRA,一种基于LoRA构建资源高效稀疏MoE模型的新方法。MixLoRA在冻结的预训练稠密模型的前馈网络(feed-forward network)模块中插入多个基于LoRA的专家,并采用常见的top-k路由机制。与现有的基于LoRA的MoE方法不同,MixLoRA通过引入独立的注意力层LoRA适配器,显著提升了模型性能。此外,我们设计了一种辅助负载均衡损失函数,以缓解路由机制中的专家负载不均问题。实验结果表明,在多任务学习场景下,MixLoRA相比当前最先进的参数高效微调(PEFT)方法,准确率提升了约9%。同时,我们提出了一种新型高吞吐量框架,有效缓解了MoE模型在训练与推理过程中的计算与内存瓶颈。该框架在训练与推理阶段均实现GPU显存占用降低40%,令牌计算延迟减少30%。