HyperAIHyperAI

Command Palette

Search for a command to run...

Neuüberlegung der Einbettungskopplung in vorab trainierten Sprachmodellen

Hyung Won Chung*† Thibault Févry*† Henry Tsai Melvin Johnson Sebastian Ruder

Zusammenfassung

Wir überprüfen die übliche Praxis des Gewichteteilens zwischen Eingabe- und Ausgabemodellen in den neuesten vortrainierten Sprachmodellen. Wir zeigen, dass getrennte Einbettungen eine erhöhte Modellflexibilität bieten, was es uns ermöglicht, die Effizienz der Parameterallokation in der Eingabeeinbettung von mehrsprachigen Modellen erheblich zu verbessern. Durch die Neuaufteilung der Parameter der Eingabeeinbettung in den Transformer-Schichten erreichen wir bei gleicher Anzahl von Parametern während des Feintunings deutlich bessere Ergebnisse bei Standardaufgaben der natürlichen Sprachverarbeitung. Zudem zeigen wir, dass das Zuweisen zusätzlicher Kapazität zur Ausgabeeinbettung Vorteile für das Modell bietet, die auch während des Feintunings bestehen bleiben, obwohl die Ausgabeeinbettung nach dem Vortraining verworfen wird. Unsere Analyse ergibt, dass größere Ausgabeeinbettungen das Über-specialisieren der letzten Schichten des Modells auf die Vortrainingsaufgabe verhindern und Transformer-Darstellungen anregen, allgemeiner und besser auf andere Aufgaben und Sprachen übertragbar zu sein. Unter Nutzung dieser Erkenntnisse können wir Modelle trainieren, die starke Leistungen beim XTREME-Benchmark erzielen, ohne die Anzahl der Parameter während des Feintunings zu erhöhen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp