HyperAIHyperAI

Command Palette

Search for a command to run...

SparseGPT: Massive Language Models können genau in einem Schritt komprimiert werden

Elias Frantar Dan Alistarh

Zusammenfassung

Erstmals zeigen wir, dass große generative vortrainierte Transformer-Modellfamilien (GPT) mit einer Sparsitätsrate von mindestens 50 % in einem einzigen Schritt ohne Nachtrainieren und mit minimaler Genauigkeitsminderung komprimiert werden können. Dies wird durch eine neue Kompressionsmethode namens SparseGPT erreicht, die speziell für eine effiziente und präzise Anwendung auf große GPT-Modellfamilien entwickelt wurde. SparseGPT kann auf den größten verfügbaren Open-Source-Modellen, OPT-175B und BLOOM-176B, in unter 4,5 Stunden ausgeführt werden und erreicht eine unstrukturierte Sparsität von 60 % mit vernachlässigbarer Erhöhung der Perplexität: Erstaunlicherweise können bei der Inferenz mehr als 100 Milliarden Gewichte dieser Modelle ignoriert werden. SparseGPT lässt sich zudem auf semi-strukturierte Muster (2:4 und 4:8) verallgemeinern und ist mit Gewichtsquantisierungsmethoden kompatibel. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/IST-DASLab/sparsegpt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp