HyperAIHyperAI
vor 17 Tagen

DeBERTaV3: Verbesserung von DeBERTa durch ELECTRA-artiges Vortrainieren mit gradientenentkoppeltem Embedding-Sharing

Pengcheng He, Jianfeng Gao, Weizhu Chen
DeBERTaV3: Verbesserung von DeBERTa durch ELECTRA-artiges Vortrainieren mit gradientenentkoppeltem Embedding-Sharing
Abstract

Diese Arbeit präsentiert ein neues vortrainiertes Sprachmodell, DeBERTaV3, das das ursprüngliche DeBERTa-Modell verbessert, indem es die Masken-Sprachmodellierung (MLM) durch die erweiterte Token-Ersetzungserkennung (RTD) ersetzt, eine sample-effizientere Aufgabe für das Vortrainieren. Unsere Analyse zeigt, dass die herkömmliche Embedding-Teilung in ELECTRA die Trainingseffizienz und die Modellleistung beeinträchtigt. Dies liegt daran, dass die Verlustfunktionen des Diskriminators und des Generators die Token-Embeddings in unterschiedliche Richtungen ziehen und somit ein „Tug-of-War“-Dynamik erzeugen. Daher schlagen wir eine neue Methode zur gradientenentkoppelten Embedding-Teilung vor, die diese Tug-of-War-Dynamik vermeidet und sowohl die Trainingseffizienz als auch die Qualität des vortrainierten Modells verbessert. Wir haben DeBERTaV3 unter denselben Einstellungen wie DeBERTa vortrainiert, um seine herausragende Leistung auf einer Vielzahl von abgeleiteten Aufgaben im Bereich der natürlichen Sprachverstehens (NLU) zu demonstrieren. Als Beispiel betrachten wir den GLUE-Benchmark mit acht Aufgaben: Das DeBERTaV3 Large-Modell erreicht eine durchschnittliche Bewertung von 91,37 %, was 1,37 Prozentpunkte über DeBERTa und 1,91 Prozentpunkte über ELECTRA liegt und damit eine neue State-of-the-Art (SOTA) unter Modellen mit ähnlicher Architektur darstellt. Darüber hinaus haben wir ein mehrsprachiges Modell, mDeBERTa, vortrainiert und beobachteten eine größere Verbesserung gegenüber starken Baselines im Vergleich zu englischsprachigen Modellen. So erreicht das mDeBERTa Base eine Null-Shot-Übersprachliche Genauigkeit von 79,8 % auf XNLI und eine Verbesserung von 3,6 Prozentpunkten gegenüber XLM-R Base, was eine neue SOTA auf diesem Benchmark darstellt. Die vortrainierten Modelle und der Inferenz-Code sind öffentlich auf https://github.com/microsoft/DeBERTa verfügbar.

DeBERTaV3: Verbesserung von DeBERTa durch ELECTRA-artiges Vortrainieren mit gradientenentkoppeltem Embedding-Sharing | Neueste Forschungsarbeiten | HyperAI