Bedingt adaptives Multi-Task-Lernen: Verbesserung des Transfer-Lernens in der NLP mit weniger Parametern und weniger Daten

Multi-Task-Lernnetzwerke (MTL) sind zu einer vielversprechenden Methode geworden, um gelerntes Wissen zwischen verschiedenen Aufgaben zu übertragen. Allerdings müssen MTL-Verfahren Herausforderungen wie Überanpassung an Aufgaben mit geringen Ressourcen, katastrophales Vergessen sowie negatives Aufgabenübertragung oder Lerninterferenz bewältigen. In der Regel ist in der Natural Language Processing (NLP) für optimale Leistung ein separates Modell pro Aufgabe erforderlich. Viele Fine-Tuning-Ansätze sind jedoch sowohl parameterun-effizient – d. h., sie erfordern potenziell ein neues Modell pro Aufgabe – als auch stark anfällig dafür, während der Vortrainingsphase erworbenes Wissen zu verlieren. Wir schlagen eine neuartige Transformer-Architektur vor, die eine neue bedingte Aufmerksamkeitsmechanik sowie eine Reihe von aufgabenbedingter Module enthält, die eine effiziente Gewichtsteilung ermöglichen. Durch diese Konstruktion (ein Hypernetzwerk-Adapter) erreichen wir eine effizientere Parameterweitergabe und verringern das Vergessen, indem wir die Hälfte der Gewichte eines vortrainierten Modells fixieren. Zudem verwenden wir eine neue Multi-Task-Datensampling-Strategie, um die negativen Auswirkungen von Datenungleichgewicht zwischen Aufgaben zu mildern. Mit diesem Ansatz übertreffen wir Einzel-Aufgaben-Fine-Tuning-Methoden, während wir gleichzeitig parameter- und dateneffizient sind (wir verwenden etwa 66 % der Daten für Gewichtsaktualisierungen). Im Vergleich zu anderen BERT Large-Methoden auf GLUE übertrifft unser 8-Aufgaben-Modell andere Adapter-Methoden um 2,8 % und unser 24-Aufgaben-Modell schneidet um 0,7–1,0 % besser ab als Modelle, die MTL oder Einzel-Aufgaben-Fine-Tuning verwenden. Wir zeigen, dass eine größere Variante unseres Ansatzes mit einem einzigen Multi-Task-Modell auf 26 NLP-Aufgaben konkurrenzfähig abschneidet und auf mehreren Test- und Entwicklungssätzen state-of-the-art-Ergebnisse erzielt. Unser Code ist öffentlich unter https://github.com/CAMTL/CA-MTL verfügbar.