HyperAIHyperAI

Command Palette

Search for a command to run...

Zur effizienten Vortraining von Sprachmodellen und nachgeschalteten Anpassungen durch Selbst-Evolution: Eine Fallstudie zu SuperGLUE

Zusammenfassung

Dieser technische Bericht beschreibt kurz die Submission unserer JDExplore-D-Team-Vega-v2-Modell-Entwicklung auf der SuperGLUE-Leaderboard. SuperGLUE stellt eine größere Herausforderung dar als der weit verbreitete allgemeine Sprachverständnis-Evaluierungsbenchmark GLUE und umfasst acht anspruchsvolle Aufgaben im Bereich Sprachverständnis, darunter Fragebeantwortung, natürliche Sprachinferenz, Wortbedeutungsdisambiguierung, Coreferenzauflösung sowie logisches Schließen. [Methode] Anstatt willkürlich die Größe eines vortrainierten Sprachmodells (PLM) zu erhöhen, zielen wir darauf ab, 1) unter einer gegebenen Parameterbegrenzung – beispielsweise 6 Milliarden Parameter – das volle Wissen aus den Eingabevortrainingsdaten vollständig auszuschöpfen, und 2) dieses Wissen effektiv auf nachgeschaltete Aufgaben zu übertragen. Um Ziel 1 zu erreichen, schlagen wir einen Ansatz namens „self-evolution learning“ für PLMs vor, der kluge Vorhersagen über informative Tokens trifft, die maskiert werden sollten, und den Masked-Language-Modeling-(MLM)-Prozess mit korrigierten glatten Labels supervisiert. Für Ziel 2 nutzen wir die Prompt-Transfer-Technik, um Aufgaben mit geringen Ressourcen zu verbessern, indem Wissen aus dem Grundmodell sowie aus verwandten nachgeschalteten Aufgaben auf die Ziel-Aufgabe übertragen wird. [Ergebnisse] Gemäß unseren Submission-Daten (Oktober 2022) erreichte unsere optimierte Vortrainings- und Feinabstimmungsstrategie mit dem 6B-Vega-Modell neue SOTA-Leistungen (State-of-the-Art) bei 4 von 8 Aufgaben. Am 8. Oktober 2022 belegte unser Modell die Spitze der SuperGLUE-Leaderboard mit einem durchschnittlichen Score von 91,3.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp