vor 17 Tagen

Prune Once for All: Sparse Pre-Trained Language Models

Ofir Zafrir, Ariel Larey, Guy Boudoukh, Haihao Shen, Moshe Wasserblat

Abstract

Transformer-basierte Sprachmodelle werden in einer Vielzahl von Anwendungen im Bereich der natürlichen Sprachverarbeitung eingesetzt. Sie sind jedoch ineffizient und schwierig zu implementieren. In den letzten Jahren wurden zahlreiche Komprimierungs-Algorithmen vorgeschlagen, um die Effizienz der Implementierung großer Transformer-basierter Modelle auf Zielhardware zu erhöhen. In dieser Arbeit präsentieren wir eine neue Methode zum Training spärlicher, vortrainierter Transformer-Sprachmodelle, die Gewichtspruning und Modell-Distillation integriert. Diese spärlichen vortrainierten Modelle können für das Transfer-Lernen verschiedener Aufgaben genutzt werden, während sie ihre Sparsitätsstruktur beibehalten. Wir demonstrieren unsere Methode anhand dreier bekannter Architekturen, um spärlich vortrainierte BERT-Base-, BERT-Large- und DistilBERT-Modelle zu erstellen. Wir zeigen, wie die komprimierten, spärlichen vortrainierten Modelle, die wir trainiert haben, ihr Wissen auf fünf unterschiedliche Downstream-Aufgaben der natürlichen Sprachverarbeitung übertragen, wobei der Genauigkeitsverlust minimal bleibt. Darüber hinaus zeigen wir, wie die Gewichte der spärlichen Modelle mittels quantisierungsaware Training auf 8-Bit-Genauigkeit weiter komprimiert werden können. Beispielsweise erreichen wir bei unserem spärlich vortrainierten BERT-Large, das auf SQuADv1.1 fine-tuned und auf 8-Bit quantisiert wurde, eine Kompressionsrate von $40$X für den Encoder mit einem Genauigkeitsverlust von weniger als $1\%$. Soweit uns bekannt ist, zeigen unsere Ergebnisse die beste Kompressions-Genauigkeits-Relation für BERT-Base, BERT-Large und DistilBERT.