vor 2 Monaten

DistilBERT, eine distillierte Version von BERT: kleiner, schneller, kostengünstiger und leichter

Victor Sanh; Lysandre Debut; Julien Chaumond; Thomas Wolf

Abstract

Da das Transferlernen von groß angelegten vortrainierten Modellen im Bereich der natürlichen Sprachverarbeitung (NLP) zunehmend an Bedeutung gewinnt, bleibt die Betrieb dieser großen Modelle am Rande oder unter eingeschränkten rechnerischen Trainings- oder Inferenzbudgets eine Herausforderung. In dieser Arbeit schlagen wir eine Methode vor, um ein kleineres allgemeines Sprachrepräsentationsmodell namens DistilBERT zu vortrainieren, das anschließend mit guten Leistungen auf einer Vielzahl von Aufgaben wie seine größeren Gegenstücke feintuneiert werden kann. Während die meisten bisherigen Arbeiten die Verwendung von Destillierung zur Erstellung aufgabenbezogener Modelle untersucht haben, nutzen wir Wissensdestillierung während der Vortrainierungsphase und zeigen, dass es möglich ist, die Größe eines BERT-Modells um 40 % zu reduzieren, wobei 97 % seiner Sprachverständnisfähigkeiten beibehalten bleiben und es 60 % schneller ist. Um die induktiven Verzerrungen zu nutzen, die größere Modelle während der Vortrainierung erlernen, führen wir einen dreifachen Verlust ein, der aus Sprachmodellierung, Destillierung und Kosinus-Distanzverlusten besteht. Unser kleineres, schnelleres und leichteres Modell ist günstiger zu vortrainieren, und wir demonstrieren seine Fähigkeiten für Geräteberechnungen in einem Konzeptnachweis-Experiment sowie in einem vergleichenden Gerätestudie.