Command Palette
Search for a command to run...
Muppet: Massive Multi-task Representations mit Pre-Finetuning
Muppet: Massive Multi-task Representations mit Pre-Finetuning
Armen Aghajanyan Anchit Gupta Akshat Shrivastava Xilun Chen Luke Zettlemoyer Sonal Gupta
Zusammenfassung
Wir schlagen vor, eine zusätzliche, großskalige Lernphase – sogenannte Pre-Finetuning – zwischen der Vortrainierung und dem Fine-Tuning von Sprachmodellen einzuführen. Das Pre-Finetuning basiert auf massivem Multitask-Lernen (ca. 50 Datensätze, über 4,8 Millionen insgesamt gelabelte Beispiele) und soll die Entwicklung von Darstellungen fördern, die sich besser auf eine Vielzahl verschiedener Aufgaben generalisieren lassen. Wir zeigen, dass das Pre-Finetuning die Leistung sowohl von vortrainierten Diskriminatormodellen (z. B. RoBERTa) als auch von Generativmodellen (z. B. BART) auf einer breiten Palette von Aufgaben (Satzvorhersage, Alltagswissen-Schlussfolgerung, Machine Reading Comprehension usw.) konsistent verbessert und gleichzeitig die Stichprobeneffizienz während des Fine-Tunings erheblich steigert. Zudem belegen wir, dass großskaliges Multitask-Lernen entscheidend ist: Das Pre-Finetuning kann die Leistung beeinträchtigen, wenn nur wenige Aufgaben verwendet werden, bis ein kritischer Punkt erreicht ist (üblicherweise oberhalb von 15 Aufgaben), ab dem sich die Leistung linear mit der Anzahl der eingesetzten Aufgaben verbessert.