Parameter-effizientes Transferlernen für NLP

Das Feinjustieren großer vorab trainierter Modelle ist ein effektiver Transfermechanismus im Bereich der natürlichen Sprachverarbeitung (NLP). Allerdings ist das Feinjustieren in Anwesenheit vieler Downstream-Aufgaben parameterineffizient: Für jede Aufgabe wird ein neues Modell benötigt. Als Alternative schlagen wir den Transfer mit Adapter-Modulen vor. Adapter-Module erzeugen ein kompaktes und erweiterbares Modell; sie fügen nur wenige trainierbare Parameter pro Aufgabe hinzu, und neue Aufgaben können hinzugefügt werden, ohne dass frühere Aufgaben erneut betrachtet werden müssen. Die Parameter des ursprünglichen Netzwerks bleiben unverändert, was einen hohen Grad an Parameterfreigabe ermöglicht. Um die Effektivität von Adaptern zu demonstrieren, transferieren wir das kürzlich vorgeschlagene BERT-Transformer-Modell auf 26 verschiedene Textklassifizierungsaufgaben, darunter den GLUE-Benchmark. Adapter erreichen nahezu den Stand der Technik, während sie nur wenige Parameter pro Aufgabe hinzufügen. Im GLUE-Benchmark erreichen wir innerhalb von 0,4 % der Leistung des vollständigen Feinjustierens, wobei wir nur 3,6 % zusätzliche Parameter pro Aufgabe hinzufügen. Im Gegensatz dazu trainiert das Feinjustieren 100 % der Parameter pro Aufgabe.