Q8BERT: Quantisierte 8-Bit BERT

Kürzlich haben vortrainierte Transformer-basierte Sprachmodelle wie BERT und GPT erhebliche Fortschritte bei zahlreichen Aufgaben des Natural Language Processing (NLP) gezeigt. Allerdings enthalten diese Modelle eine große Anzahl an Parametern. Die Entwicklung noch größerer und präziserer Modelle wie GPT-2 und Megatron deutet auf einen Trend hin, hin zu großen, vortrainierten Transformer-Modellen. Die Nutzung solcher großer Modelle in Produktionsumgebungen stellt jedoch eine komplexe Aufgabe dar, die erhebliche Rechenleistung, Speicherplatz und Energieverbrauch erfordert. In dieser Arbeit zeigen wir, wie während des Fine-Tuning von BERT Quantisierungsbewusstes Training durchgeführt werden kann, um BERT um den Faktor 4 zu komprimieren, wobei der Genauigkeitsverlust minimal bleibt. Zudem kann das resultierende quantisierte Modell die Inferenzgeschwindigkeit beschleunigen, wenn es auf Hardware optimiert ist, die 8-Bit-Integer-Operationen unterstützt.