HyperAIHyperAI

Command Palette

Search for a command to run...

Q8BERT: Quantisierte 8-Bit BERT

Ofir Zafrir Guy Boudoukh Peter Izsak Moshe Wasserblat

Zusammenfassung

Kürzlich haben vortrainierte Transformer-basierte Sprachmodelle wie BERT und GPT erhebliche Fortschritte bei zahlreichen Aufgaben des Natural Language Processing (NLP) gezeigt. Allerdings enthalten diese Modelle eine große Anzahl an Parametern. Die Entwicklung noch größerer und präziserer Modelle wie GPT-2 und Megatron deutet auf einen Trend hin, hin zu großen, vortrainierten Transformer-Modellen. Die Nutzung solcher großer Modelle in Produktionsumgebungen stellt jedoch eine komplexe Aufgabe dar, die erhebliche Rechenleistung, Speicherplatz und Energieverbrauch erfordert. In dieser Arbeit zeigen wir, wie während des Fine-Tuning von BERT Quantisierungsbewusstes Training durchgeführt werden kann, um BERT um den Faktor 4 zu komprimieren, wobei der Genauigkeitsverlust minimal bleibt. Zudem kann das resultierende quantisierte Modell die Inferenzgeschwindigkeit beschleunigen, wenn es auf Hardware optimiert ist, die 8-Bit-Integer-Operationen unterstützt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp