Apprentissage multi-tâches conditionnellement adaptatif : amélioration de l'apprentissage transféré en NLP avec moins de paramètres et moins de données

Les réseaux d’apprentissage multi-tâches (MTL) se sont imposés comme une méthode prometteuse pour transférer les connaissances apprises entre différentes tâches. Toutefois, le MTL doit faire face à des défis tels que le surajustement aux tâches à faible ressource, le oubli catastrophique et le transfert négatif ou l’interférence entre tâches. En traitement du langage naturel (NLP), on a souvent besoin d’un modèle distinct par tâche pour atteindre les meilleurs résultats. Pourtant, de nombreuses approches de fine-tuning sont à la fois inefficaces en termes de paramètres — pouvant nécessiter un nouveau modèle par tâche — et très sensibles à la perte de connaissances acquises durant le préentraînement. Nous proposons une nouvelle architecture Transformer basée sur un mécanisme d’attention conditionnelle ainsi que sur un ensemble de modules conditionnés par la tâche, permettant ainsi un partage efficace des poids. Grâce à cette construction (un adaptateur hyperréseau), nous parvenons à un partage de paramètres plus efficace et réduisons le oubli en maintenant la moitié des poids d’un modèle préentraîné fixés. Nous introduisons également une nouvelle stratégie d’échantillonnage de données multi-tâches afin de limiter les effets néfastes de l’imbalanced des données entre tâches. Grâce à cette approche, nous surpassons les méthodes de fine-tuning mono-tâche tout en étant efficaces en termes de paramètres et de données (utilisant environ 66 % des données pour les mises à jour des poids). Comparé à d’autres méthodes BERT Large sur GLUE, notre modèle multi-tâche à 8 tâches dépasse les autres méthodes d’adaptateurs de 2,8 points, tandis que notre modèle à 24 tâches surpasse de 0,7 à 1,0 point les modèles utilisant le MTL ou le fine-tuning mono-tâche. Nous montrons qu’une version plus grande de notre approche unifiée multi-tâche obtient des performances compétitives sur 26 tâches de NLP et atteint des résultats de pointe sur plusieurs jeux de test et de développement. Notre code est disponible publiquement à l’adresse suivante : https://github.com/CAMTL/CA-MTL.