Zur effizienten Vortraining von Sprachmodellen und nachgeschalteten Anpassungen durch Selbst-Evolution: Eine Fallstudie zu SuperGLUE

Dieser technische Bericht beschreibt kurz die Submission unserer JDExplore-D-Team-Vega-v2-Modell-Entwicklung auf der SuperGLUE-Leaderboard. SuperGLUE stellt eine größere Herausforderung dar als der weit verbreitete allgemeine Sprachverständnis-Evaluierungsbenchmark GLUE und umfasst acht anspruchsvolle Aufgaben im Bereich Sprachverständnis, darunter Fragebeantwortung, natürliche Sprachinferenz, Wortbedeutungsdisambiguierung, Coreferenzauflösung sowie logisches Schließen. [Methode] Anstatt willkürlich die Größe eines vortrainierten Sprachmodells (PLM) zu erhöhen, zielen wir darauf ab, 1) unter einer gegebenen Parameterbegrenzung – beispielsweise 6 Milliarden Parameter – das volle Wissen aus den Eingabevortrainingsdaten vollständig auszuschöpfen, und 2) dieses Wissen effektiv auf nachgeschaltete Aufgaben zu übertragen. Um Ziel 1 zu erreichen, schlagen wir einen Ansatz namens „self-evolution learning“ für PLMs vor, der kluge Vorhersagen über informative Tokens trifft, die maskiert werden sollten, und den Masked-Language-Modeling-(MLM)-Prozess mit korrigierten glatten Labels supervisiert. Für Ziel 2 nutzen wir die Prompt-Transfer-Technik, um Aufgaben mit geringen Ressourcen zu verbessern, indem Wissen aus dem Grundmodell sowie aus verwandten nachgeschalteten Aufgaben auf die Ziel-Aufgabe übertragen wird. [Ergebnisse] Gemäß unseren Submission-Daten (Oktober 2022) erreichte unsere optimierte Vortrainings- und Feinabstimmungsstrategie mit dem 6B-Vega-Modell neue SOTA-Leistungen (State-of-the-Art) bei 4 von 8 Aufgaben. Am 8. Oktober 2022 belegte unser Modell die Spitze der SuperGLUE-Leaderboard mit einem durchschnittlichen Score von 91,3.