HyperAIHyperAI
vor 17 Tagen

Q-BERT: Hessian-basierte ultra-niedrige Präzisions-Quantisierung von BERT

Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer
Q-BERT: Hessian-basierte ultra-niedrige Präzisions-Quantisierung von BERT
Abstract

Transformer-basierte Architekturen sind zu Standardmodellen für eine Vielzahl von Aufgaben im Bereich des Natural Language Processing (NLP) geworden. Insbesondere erreichten BERT-basierte Modelle erhebliche Genauigkeitssteigerungen bei den GLUE-Aufgaben, CoNLL-03 und SQuAD. Allerdings weisen BERT-basierte Modelle einen erheblichen Speicherbedarf und hohe Latenz auf, was die Bereitstellung dieser Modelle in ressourcenbeschränkten Umgebungen zu einer herausfordernden Aufgabe macht. In dieser Arbeit führen wir eine umfassende Analyse feinabgestimmter BERT-Modelle unter Verwendung von zweiter Ordnung Hessian-Informationen durch und nutzen unsere Ergebnisse, um einen neuartigen Ansatz zur Quantisierung von BERT-Modellen auf ultraniedrige Präzision vorzuschlagen. Insbesondere stellen wir ein neues gruppenweises Quantisierungsverfahren vor und kombinieren es mit einer auf der Hessian-Matrix basierenden Mix-Precision-Methode, um die Modellkompression weiter zu erhöhen. Wir testen unseren Ansatz ausführlich anhand mehrerer BERT-Downstream-Aufgaben, darunter SST-2, MNLI, CoNLL-03 und SQuAD. Dabei erreichen wir eine Leistung, die der des Baseline-Modells vergleichbar ist, mit maximal 2,3 % Leistungsverlust – selbst bei einer extrem niedrigen Quantisierung auf nur 2 Bit. Dies entspricht einer Modellparameterkompression von bis zu 13-fach sowie einer Kompression der Embedding-Tabelle und der Aktivierungen um bis zu 4-fach. Bei allen Aufgaben zeigten wir den höchsten Leistungsverlust bei BERT, das auf SQuAD feinabgestimmt wurde. Durch eine detaillierte Untersuchung der Hessian-basierten Analyse sowie visuelle Auswertungen zeigen wir, dass dies darauf zurückzuführen ist, dass die derzeitige Trainings-/Feinabstimmungsstrategie von BERT für SQuAD nicht konvergiert.

Q-BERT: Hessian-basierte ultra-niedrige Präzisions-Quantisierung von BERT | Neueste Forschungsarbeiten | HyperAI