vor 9 Tagen

SparseGPT: Massive Language Models können genau in einem Schritt komprimiert werden

Elias Frantar, Dan Alistarh

Abstract

Erstmals zeigen wir, dass große generative vortrainierte Transformer-Modellfamilien (GPT) mit einer Sparsitätsrate von mindestens 50 % in einem einzigen Schritt ohne Nachtrainieren und mit minimaler Genauigkeitsminderung komprimiert werden können. Dies wird durch eine neue Kompressionsmethode namens SparseGPT erreicht, die speziell für eine effiziente und präzise Anwendung auf große GPT-Modellfamilien entwickelt wurde. SparseGPT kann auf den größten verfügbaren Open-Source-Modellen, OPT-175B und BLOOM-176B, in unter 4,5 Stunden ausgeführt werden und erreicht eine unstrukturierte Sparsität von 60 % mit vernachlässigbarer Erhöhung der Perplexität: Erstaunlicherweise können bei der Inferenz mehr als 100 Milliarden Gewichte dieser Modelle ignoriert werden. SparseGPT lässt sich zudem auf semi-strukturierte Muster (2:4 und 4:8) verallgemeinern und ist mit Gewichtsquantisierungsmethoden kompatibel. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/IST-DASLab/sparsegpt.