vor 2 Monaten

Parameter-effizientes Transferlernen für NLP

Neil Houlsby; Andrei Giurgiu; Stanislaw Jastrzebski; Bruna Morrone; Quentin de Laroussilhe; Andrea Gesmundo; Mona Attariyan; Sylvain Gelly

Details der Forschungsarbeit anzeigen

Parameter-effizientes Transferlernen für NLP

Abstract

Das Feinjustieren großer vorab trainierter Modelle ist ein effektiver Transfermechanismus im Bereich der natürlichen Sprachverarbeitung (NLP). Allerdings ist das Feinjustieren in Anwesenheit vieler Downstream-Aufgaben parameterineffizient: Für jede Aufgabe wird ein neues Modell benötigt. Als Alternative schlagen wir den Transfer mit Adapter-Modulen vor. Adapter-Module erzeugen ein kompaktes und erweiterbares Modell; sie fügen nur wenige trainierbare Parameter pro Aufgabe hinzu, und neue Aufgaben können hinzugefügt werden, ohne dass frühere Aufgaben erneut betrachtet werden müssen. Die Parameter des ursprünglichen Netzwerks bleiben unverändert, was einen hohen Grad an Parameterfreigabe ermöglicht. Um die Effektivität von Adaptern zu demonstrieren, transferieren wir das kürzlich vorgeschlagene BERT-Transformer-Modell auf 26 verschiedene Textklassifizierungsaufgaben, darunter den GLUE-Benchmark. Adapter erreichen nahezu den Stand der Technik, während sie nur wenige Parameter pro Aufgabe hinzufügen. Im GLUE-Benchmark erreichen wir innerhalb von 0,4 % der Leistung des vollständigen Feinjustierens, wobei wir nur 3,6 % zusätzliche Parameter pro Aufgabe hinzufügen. Im Gegensatz dazu trainiert das Feinjustieren 100 % der Parameter pro Aufgabe.