DePT: Entkoppelte Prompt-Tuning

Diese Arbeit überwindet die Base-New-Tradeoff (BNT)-Dilemma bei der Prompt-Tuning, d.h. je besser das angepasste Modell auf der Basis-(oder Ziel-)Aufgabe generalisiert, desto schlechter generalisiert es auf neue Aufgaben, und umgekehrt. Genauer analysierend die gelernten Merkmale der Basis- und der neuen Aufgaben stellen wir fest, dass das BNT-Dilemma auf ein Kanal-Bias-Problem zurückzuführen ist: Die überwiegende Mehrheit der Merkmalskanäle wird von basis-spezifischem Wissen beansprucht, wodurch das für neue Aufgaben wichtige gemeinsame Aufgabenwissen kollabiert. Um dies zu beheben, schlagen wir den Decoupled Prompt Tuning (DePT)-Ansatz vor, der basis-spezifisches Wissen während der Prompt-Tuning aus den Merkmalskanälen in einen isolierten Merkmalsraum auslagert, um das gemeinsame Aufgabenwissen im ursprünglichen Merkmalsraum maximal zu erhalten und somit eine bessere Zero-Shot-Generalisierung auf neue Aufgaben zu erreichen. Wichtig ist, dass unser DePT orthogonal zu bestehenden Prompt-Tuning-Methoden ist und daher alle bestehenden Ansätze verbessern kann. Umfassende Experimente an 11 Datensätzen belegen die starke Flexibilität und Wirksamkeit von DePT. Unser Code und vortrainierte Modelle sind unter https://github.com/Koorye/DePT verfügbar.