HyperAIHyperAI
vor 14 Tagen

Feinabstimmung vortrainierter Transformer in RNNs

Jungo Kasai, Hao Peng, Yizhe Zhang, Dani Yogatama, Gabriel Ilharco, Nikolaos Pappas, Yi Mao, Weizhu Chen, Noah A. Smith
Feinabstimmung vortrainierter Transformer in RNNs
Abstract

Transformers haben in der natürlichen Sprachgenerierung rekurrente neuronale Netze (RNNs) überflügelt. Dies geht jedoch mit einer erheblichen Rechenkostenbelastung einher, da die Komplexität des Aufmerksamkeitsmechanismus quadratisch mit der Sequenzlänge wächst. Effiziente Varianten von Transformers haben in jüngsten Arbeiten zunehmend Interesse gefunden. Unter ihnen hat sich eine rekursive Variante mit linearer Komplexität als besonders gut für autoregressive Generierung erwiesen. Sie approximiert die Softmax-Aufmerksamkeit mittels zufälliger oder heuristischer Merkmalsabbildungen, ist jedoch oft schwer zu trainieren und kann suboptimale Genauigkeit liefern. In dieser Arbeit zielt unser Ansatz darauf ab, einen vortrainierten Transformer in seine effiziente rekursive Entsprechung zu überführen, wodurch die Effizienz verbessert wird, ohne die Genauigkeit zu beeinträchtigen. Konkret schlagen wir ein Swap-then-Finetune-Verfahren vor: In einem standardmäßigen vortrainierten Transformer ersetzen wir die Softmax-Aufmerksamkeit durch ihre rekursive Alternative mit linearer Komplexität und finetunen anschließend. Durch eine gelernte Merkmalsabbildung erzielt unser Ansatz ein verbessertes Verhältnis zwischen Effizienz und Genauigkeit im Vergleich zum herkömmlichen Transformer sowie anderen rekursiven Varianten. Zudem zeigen wir, dass der Finetuning-Prozess im Vergleich zum vollständigen Neutrainieren dieser rekursiven Varianten geringere Trainingskosten verursacht. Da viele Modelle für Aufgaben der natürlichen Sprache zunehmend auf großskalige vortrainierte Transformers angewiesen sind, stellt diese Arbeit eine praktikable Lösung zur Verbesserung der Inferenz-Effizienz dar, ohne den kostenintensiven Vortrainingsprozess wiederholen zu müssen.

Feinabstimmung vortrainierter Transformer in RNNs | Neueste Forschungsarbeiten | HyperAI