HyperAIHyperAI

Command Palette

Search for a command to run...

DistilBERT, eine distillierte Version von BERT: kleiner, schneller, kostengünstiger und leichter

Victor SANH Lysandre DEBUT Julien CHAUMOND Thomas WOLF

Zusammenfassung

Da das Transferlernen von groß angelegten vortrainierten Modellen im Bereich der natürlichen Sprachverarbeitung (NLP) zunehmend an Bedeutung gewinnt, bleibt die Betrieb dieser großen Modelle am Rande oder unter eingeschränkten rechnerischen Trainings- oder Inferenzbudgets eine Herausforderung. In dieser Arbeit schlagen wir eine Methode vor, um ein kleineres allgemeines Sprachrepräsentationsmodell namens DistilBERT zu vortrainieren, das anschließend mit guten Leistungen auf einer Vielzahl von Aufgaben wie seine größeren Gegenstücke feintuneiert werden kann. Während die meisten bisherigen Arbeiten die Verwendung von Destillierung zur Erstellung aufgabenbezogener Modelle untersucht haben, nutzen wir Wissensdestillierung während der Vortrainierungsphase und zeigen, dass es möglich ist, die Größe eines BERT-Modells um 40 % zu reduzieren, wobei 97 % seiner Sprachverständnisfähigkeiten beibehalten bleiben und es 60 % schneller ist. Um die induktiven Verzerrungen zu nutzen, die größere Modelle während der Vortrainierung erlernen, führen wir einen dreifachen Verlust ein, der aus Sprachmodellierung, Destillierung und Kosinus-Distanzverlusten besteht. Unser kleineres, schnelleres und leichteres Modell ist günstiger zu vortrainieren, und wir demonstrieren seine Fähigkeiten für Geräteberechnungen in einem Konzeptnachweis-Experiment sowie in einem vergleichenden Gerätestudie.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DistilBERT, eine distillierte Version von BERT: kleiner, schneller, kostengünstiger und leichter | Paper | HyperAI