DePT : Tuning de prompt déconnecté

Ce travail surmonte le dilemme Base-New Tradeoff (BNT) dans le réglage de prompts, à savoir que plus le modèle ajusté généralise bien sur la tâche de base (ou cible), moins il généralise sur les nouvelles tâches, et réciproquement. Plus précisément, grâce à une analyse approfondie des caractéristiques apprises pour les tâches de base et les nouvelles tâches, nous observons que le BNT provient d’un problème de biais de canal : la grande majorité des canaux de caractéristiques sont occupés par des connaissances spécifiques à la tâche de base, entraînant ainsi l’effondrement des connaissances partagées entre les tâches, essentielles pour les nouvelles tâches. Pour résoudre ce problème, nous proposons le cadre DePT (Decoupled Prompt Tuning), qui déconnecte les connaissances spécifiques à la tâche de base des canaux de caractéristiques en les transférant dans un espace de caractéristiques isolé pendant le réglage de prompts. Cela permet de préserver au maximum les connaissances partagées entre les tâches dans l’espace de caractéristiques original, afin d’obtenir une meilleure généralisation zéro-shot sur les nouvelles tâches. De façon importante, notre approche DePT est orthogonale aux méthodes existantes de réglage de prompts, ce qui lui permet d’améliorer toutes ces méthodes. Des expérimentations étendues sur 11 jeux de données démontrent la grande flexibilité et l’efficacité de DePT. Notre code source et les modèles préentraînés sont disponibles à l’adresse suivante : https://github.com/Koorye/DePT.