HyperAIHyperAI

Command Palette

Search for a command to run...

DeBERTaV3: Verbesserung von DeBERTa durch ELECTRA-artiges Vortrainieren mit gradientenentkoppeltem Embedding-Sharing

Pengcheng He Jianfeng Gao Weizhu Chen

Zusammenfassung

Diese Arbeit präsentiert ein neues vortrainiertes Sprachmodell, DeBERTaV3, das das ursprüngliche DeBERTa-Modell verbessert, indem es die Masken-Sprachmodellierung (MLM) durch die erweiterte Token-Ersetzungserkennung (RTD) ersetzt, eine sample-effizientere Aufgabe für das Vortrainieren. Unsere Analyse zeigt, dass die herkömmliche Embedding-Teilung in ELECTRA die Trainingseffizienz und die Modellleistung beeinträchtigt. Dies liegt daran, dass die Verlustfunktionen des Diskriminators und des Generators die Token-Embeddings in unterschiedliche Richtungen ziehen und somit ein „Tug-of-War“-Dynamik erzeugen. Daher schlagen wir eine neue Methode zur gradientenentkoppelten Embedding-Teilung vor, die diese Tug-of-War-Dynamik vermeidet und sowohl die Trainingseffizienz als auch die Qualität des vortrainierten Modells verbessert. Wir haben DeBERTaV3 unter denselben Einstellungen wie DeBERTa vortrainiert, um seine herausragende Leistung auf einer Vielzahl von abgeleiteten Aufgaben im Bereich der natürlichen Sprachverstehens (NLU) zu demonstrieren. Als Beispiel betrachten wir den GLUE-Benchmark mit acht Aufgaben: Das DeBERTaV3 Large-Modell erreicht eine durchschnittliche Bewertung von 91,37 %, was 1,37 Prozentpunkte über DeBERTa und 1,91 Prozentpunkte über ELECTRA liegt und damit eine neue State-of-the-Art (SOTA) unter Modellen mit ähnlicher Architektur darstellt. Darüber hinaus haben wir ein mehrsprachiges Modell, mDeBERTa, vortrainiert und beobachteten eine größere Verbesserung gegenüber starken Baselines im Vergleich zu englischsprachigen Modellen. So erreicht das mDeBERTa Base eine Null-Shot-Übersprachliche Genauigkeit von 79,8 % auf XNLI und eine Verbesserung von 3,6 Prozentpunkten gegenüber XLM-R Base, was eine neue SOTA auf diesem Benchmark darstellt. Die vortrainierten Modelle und der Inferenz-Code sind öffentlich auf https://github.com/microsoft/DeBERTa verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp