HyperAIHyperAI

Command Palette

Search for a command to run...

Prune Once for All: Sparse Pre-Trained Language Models

Ofir Zafrir Ariel Larey Guy Boudoukh Haihao Shen Moshe Wasserblat

Zusammenfassung

Transformer-basierte Sprachmodelle werden in einer Vielzahl von Anwendungen im Bereich der natürlichen Sprachverarbeitung eingesetzt. Sie sind jedoch ineffizient und schwierig zu implementieren. In den letzten Jahren wurden zahlreiche Komprimierungs-Algorithmen vorgeschlagen, um die Effizienz der Implementierung großer Transformer-basierter Modelle auf Zielhardware zu erhöhen. In dieser Arbeit präsentieren wir eine neue Methode zum Training spärlicher, vortrainierter Transformer-Sprachmodelle, die Gewichtspruning und Modell-Distillation integriert. Diese spärlichen vortrainierten Modelle können für das Transfer-Lernen verschiedener Aufgaben genutzt werden, während sie ihre Sparsitätsstruktur beibehalten. Wir demonstrieren unsere Methode anhand dreier bekannter Architekturen, um spärlich vortrainierte BERT-Base-, BERT-Large- und DistilBERT-Modelle zu erstellen. Wir zeigen, wie die komprimierten, spärlichen vortrainierten Modelle, die wir trainiert haben, ihr Wissen auf fünf unterschiedliche Downstream-Aufgaben der natürlichen Sprachverarbeitung übertragen, wobei der Genauigkeitsverlust minimal bleibt. Darüber hinaus zeigen wir, wie die Gewichte der spärlichen Modelle mittels quantisierungsaware Training auf 8-Bit-Genauigkeit weiter komprimiert werden können. Beispielsweise erreichen wir bei unserem spärlich vortrainierten BERT-Large, das auf SQuADv1.1 fine-tuned und auf 8-Bit quantisiert wurde, eine Kompressionsrate von 404040X für den Encoder mit einem Genauigkeitsverlust von weniger als 1%1\%1%. Soweit uns bekannt ist, zeigen unsere Ergebnisse die beste Kompressions-Genauigkeits-Relation für BERT-Base, BERT-Large und DistilBERT.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp