HyperAIHyperAI
vor 11 Tagen

TinyBERT: Das Komprimieren von BERT für die natürliche Sprachverarbeitung

Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, Qun Liu
TinyBERT: Das Komprimieren von BERT für die natürliche Sprachverarbeitung
Abstract

Die Vortrainierung von Sprachmodellen, wie beispielsweise BERT, hat die Leistung vieler Aufgaben im Bereich des natürlichen Sprachverstehens erheblich verbessert. Allerdings sind vortrainierte Sprachmodelle in der Regel rechenintensiv, weshalb ihre effiziente Ausführung auf ressourcenbeschränkten Geräten schwierig ist. Um die Inferenzgeschwindigkeit zu beschleunigen und die Modellgröße zu reduzieren, ohne die Genauigkeit zu beeinträchtigen, stellen wir zunächst eine neuartige Transformer-Distillation-Methode vor, die speziell für das Wissensdistillation (Knowledge Distillation, KD) von Transformer-basierten Modellen entwickelt wurde. Durch die Nutzung dieser neuen KD-Methode kann das umfangreiche Wissen, das in einem großen Lehrmodell BERT kodiert ist, effektiv auf ein kleineres Schülermodell, Tiny-BERT, übertragen werden. Anschließend führen wir einen neuen zweistufigen Lernrahmen für TinyBERT ein, der die Transformer-Distillation sowohl im Vortrainierungs- als auch im aufgabe-spezifischen Lernstadium durchführt. Dieser Rahmen stellt sicher, dass TinyBERT sowohl allgemeine Domänenkenntnisse als auch aufgabenbezogene Wissensinhalte aus BERT erfassen kann.Empirisch zeigt sich, dass TinyBERT mit 4 Schichten effektiv ist und auf dem GLUE-Benchmark eine Leistung von mehr als 96,8 % des Lehrmodells BERTBASE erreicht, wobei das Modell gleichzeitig 7,5-mal kleiner und 9,4-mal schneller bei der Inferenz ist. TinyBERT mit 4 Schichten übertrifft zudem die derzeit besten 4-Schicht-Methoden zur BERT-Distillation deutlich, wobei es nur etwa 28 % der Parameter und etwa 31 % der Inferenzzeit dieser Baselines benötigt. Darüber hinaus erreicht TinyBERT mit 6 Schichten eine Leistung, die der des Lehrmodells BERTBASE entspricht.

TinyBERT: Das Komprimieren von BERT für die natürliche Sprachverarbeitung | Neueste Forschungsarbeiten | HyperAI