HyperAIHyperAI
vor 15 Tagen

MixLoRA: Verbesserung der Feinabstimmung großer Sprachmodelle durch LoRA-basierte Mischung aus Experten

Dengchun Li, Yingzi Ma, Naizheng Wang, Zhengmao Ye, Zhiyuan Cheng, Yinghao Tang, Yan Zhang, Lei Duan, Jie Zuo, Cal Yang, Mingjie Tang
MixLoRA: Verbesserung der Feinabstimmung großer Sprachmodelle durch LoRA-basierte Mischung aus Experten
Abstract

Das Feintuning großer Sprachmodelle (Large Language Models, LLMs) ist eine gängige Praxis, um vortrainierte Modelle für spezifische Anwendungen anzupassen. Während Methoden wie LoRA effektiv die Beschränkungen des GPU-Speichers beim Feintuning adressieren, erzielen sie oft eine unterdurchschnittliche Leistung, insbesondere in mehrfachaufgabenbasierten Szenarien. Im Gegensatz dazu zeigen Mixture-of-Experts (MoE)-Modelle, wie beispielsweise Mixtral 8x7B, bemerkenswerte Leistung in mehrfachaufgabenbasierten Lernszenarien, während sie gleichzeitig eine reduzierte Parameteranzahl beibehalten. Dennoch bleiben die Ressourcenanforderungen dieser MoE-Modelle herausfordernd, insbesondere für GPUs mit weniger als 24 GB Speicher, die im Konsumbereich üblich sind. Um diese Herausforderungen zu bewältigen, stellen wir MixLoRA vor, einen Ansatz zur Konstruktion eines ressourcensparenden, sparsamen MoE-Modells auf Basis von LoRA. MixLoRA integriert mehrere auf LoRA basierende Experten innerhalb des Feed-Forward-Netzwerkblocks eines gefrorenen, dichten vortrainierten Modells und nutzt einen üblichen Top-k-Router. Im Gegensatz zu anderen LoRA-basierten MoE-Methoden verbessert MixLoRA die Modellleistung durch die Nutzung unabhängiger LoRA-Adapter für die Aufmerksamkeitslayer. Zudem wird eine zusätzliche Lastausgleichsverlustfunktion eingesetzt, um das Ungleichgewicht des Routers zu beheben. Unsere Evaluierungen zeigen, dass MixLoRA im Vergleich zu führenden Parameter-Effizienz-Feintuning-Methoden (PEFT) in mehrfachaufgabenbasierten Szenarien eine Verbesserung der Genauigkeit um etwa 9 % erzielt. Außerdem präsentieren wir einen neuen hochdurchsatzfähigen Rahmen, der die Rechen- und Speicherengpässe bei der Training- und Inferenzphase von MoE-Modellen verringert. Dieser Rahmen senkt sowohl während des Trainings als auch während der Inferenz die GPU-Speicherverwendung um 40 % und die Token-Berechnungsverzögerung um 30 %.

MixLoRA: Verbesserung der Feinabstimmung großer Sprachmodelle durch LoRA-basierte Mischung aus Experten | Neueste Forschungsarbeiten | HyperAI