HyperAIHyperAI
vor 2 Monaten

Neuüberlegung der Einbettungskopplung in vorab trainierten Sprachmodellen

Hyung Won Chung; Thibault Févry; Henry Tsai; Melvin Johnson; Sebastian Ruder
Neuüberlegung der Einbettungskopplung in vorab trainierten Sprachmodellen
Abstract

Wir überprüfen die übliche Praxis des Gewichteteilens zwischen Eingabe- und Ausgabemodellen in den neuesten vortrainierten Sprachmodellen. Wir zeigen, dass getrennte Einbettungen eine erhöhte Modellflexibilität bieten, was es uns ermöglicht, die Effizienz der Parameterallokation in der Eingabeeinbettung von mehrsprachigen Modellen erheblich zu verbessern. Durch die Neuaufteilung der Parameter der Eingabeeinbettung in den Transformer-Schichten erreichen wir bei gleicher Anzahl von Parametern während des Feintunings deutlich bessere Ergebnisse bei Standardaufgaben der natürlichen Sprachverarbeitung. Zudem zeigen wir, dass das Zuweisen zusätzlicher Kapazität zur Ausgabeeinbettung Vorteile für das Modell bietet, die auch während des Feintunings bestehen bleiben, obwohl die Ausgabeeinbettung nach dem Vortraining verworfen wird. Unsere Analyse ergibt, dass größere Ausgabeeinbettungen das Über-specialisieren der letzten Schichten des Modells auf die Vortrainingsaufgabe verhindern und Transformer-Darstellungen anregen, allgemeiner und besser auf andere Aufgaben und Sprachen übertragbar zu sein. Unter Nutzung dieser Erkenntnisse können wir Modelle trainieren, die starke Leistungen beim XTREME-Benchmark erzielen, ohne die Anzahl der Parameter während des Feintunings zu erhöhen.

Neuüberlegung der Einbettungskopplung in vorab trainierten Sprachmodellen | Neueste Forschungsarbeiten | HyperAI