HyperAIHyperAI
vor 2 Monaten

Parameter-effiziente Sparsitätserstellung von dichten zu Expertenmischungen für die Anweisungstuning bei allgemeinen Aufgaben

Haoyuan Wu; Haisheng Zheng; Zhuolun He; Bei Yu
Parameter-effiziente Sparsitätserstellung von dichten zu Expertenmischungen für die Anweisungstuning bei allgemeinen Aufgaben
Abstract

Große Sprachmodelle (GSMs) haben erhebliche Fähigkeiten in allgemeinen Aufgaben der natürlichen Sprachverarbeitung (NLP) bewiesen. Die Anweisungstuning-Paradigm, eine erfolgreiche Methode, verbessert die Fähigkeit von GSMs, natürlichsprachliche Anweisungen zu befolgen und eine robuste Generalisierung über allgemeine Aufgaben hinweg zu zeigen. Dennoch stoßen diese Modelle oft an Leistungsgrenzen bei mehreren Aufgaben aufgrund begrenzter Modellkapazität. Eine Erweiterung dieser Kapazität während der Anweisungstuning-Phase stellt erhebliche Herausforderungen dar. Um dieses Problem anzugehen, stellen wir parameter-effizientes Sparsity Crafting (PESC) vor, das dichte Modelle unter Verwendung der Expertenmisch-Architektur (Mixture-of-Experts, MoE) in dünn besetzte Modelle umgestaltet. PESC integriert Adapter in die MoE-Schichten dünn besetzter Modelle, wodurch Experten unterschieden werden können, ohne die individuellen Gewichte innerhalb dieser Schichten zu ändern. Diese Methode reduziert die Rechenkosten und die GPU-Speicheranforderungen erheblich und ermöglicht es durch einen minimalen Parameterzuwachs, die Modellkapazität zu erweitern, während gleichzeitig die Approximationsqualität im Funktionenraum im Vergleich zur ursprünglichen dünnen Wiederverwendung gewährleistet wird. Unsere empirische Auswertung zeigt die Effektivität der PESC-Methode. Durch den Einsatz von PESC beim Anweisungstuning übertreffen unsere besten dünn besetzten Modelle andere dünn besetzte und dichte Modelle und weisen vergleichsweise überlegene allgemeine Fähigkeiten auf als GPT-3.5. Unser Code ist unter https://github.com/wuhy68/Parameter-Efficient-MoE verfügbar.

Parameter-effiziente Sparsitätserstellung von dichten zu Expertenmischungen für die Anweisungstuning bei allgemeinen Aufgaben | Neueste Forschungsarbeiten | HyperAI