HyperAIHyperAI
vor 17 Tagen

Geschnittene LLaMA: Beschleunigung des Vortrainings von Sprachmodellen durch strukturiertes Pruning

Mengzhou Xia, Tianyu Gao, Zhiyuan Zeng, Danqi Chen
Geschnittene LLaMA: Beschleunigung des Vortrainings von Sprachmodellen durch strukturiertes Pruning
Abstract

Die Popularität von LLaMA (Touvron et al., 2023a;b) und weiterer kürzlich entstandener mittelgroßer Großsprachmodelle (Large Language Models, LLMs) unterstreicht das Potenzial, kleinere, dennoch leistungsstarke LLMs zu entwickeln. Dennoch bleibt der Aufwand für das Training solcher Modelle von Grund auf auf Trillionen von Tokens hoch. In dieser Arbeit untersuchen wir strukturiertes Pruning als effektives Mittel, um kleinere LLMs aus vortrainierten, größeren Modellen abzuleiten. Unser Ansatz setzt auf zwei zentrale Techniken: (1) gezieltes strukturiertes Pruning, bei dem ein größeres Modell end-to-end durch Entfernung von Schichten, Köpfen sowie Zwischen- und versteckten Dimensionen auf eine vorgegebene Zielstruktur reduziert wird, und (2) dynamisches Batch-Laden, bei dem die Zusammensetzung der in jedem Trainingsbatch verwendeten Daten dynamisch anhand der unterschiedlichen Verluste über verschiedene Domänen angepasst wird. Wir belegen die Wirksamkeit unseres Ansatzes durch die Einführung der Sheared-LLaMA-Serie, bei der das LLaMA2-7B-Modell auf 1,3B und 2,7B Parameter reduziert wurde. Die Sheared-LLaMA-Modelle erreichen auf einer Vielzahl von Downstream-Aufgaben und Evaluationen im Bereich der Anweisungstuning-Optimierung eine bessere Leistung als aktuelle state-of-the-art-Open-Source-Modelle gleicher Größe, wie beispielsweise Pythia, INCITE, OpenLLaMA und die gleichzeitig vorgestellten TinyLlama-Modelle, wobei lediglich 3 % des Rechenaufwands im Vergleich zum vollständigen Neutrainings benötigt werden. Diese Arbeit liefert überzeugende Belege dafür, dass die Nutzung bereits existierender LLMs mittels strukturiertem Pruning ein deutlich kosteneffizienterer Ansatz für die Entwicklung konkurrenzfähiger kleiner LLMs darstellt.