Relever le défi de l’apprentissage multi-tâches et de l’apprentissage métacognitif : Vers une formation efficace et une adaptation performante

L’apprentissage multi-tâches (Multi-task learning, MTL) vise à améliorer la généralisation de plusieurs tâches corrélées en les apprenant conjointement. À titre de comparaison, outre le cadre d’entraînement conjoint, l’apprentissage métas (meta-learning) moderne permet de traiter des tâches inédites, avec un nombre limité d’étiquettes, durant la phase de test, dans l’espoir d’une adaptation rapide. Malgré la différence subtile entre MTL et apprentissage métas dans leur formulation du problème, les deux paradigmes partagent une même intuition fondamentale : la structure partagée entre les tâches d’entraînement existantes peut conduire à une meilleure généralisation et adaptation. Dans cet article, nous franchissons une étape importante vers une meilleure compréhension de la connexion étroite entre ces deux paradigmes, à travers une analyse théorique et une investigation empirique. Théoriquement, nous démontrons d’abord que le MTL partage la même formulation d’optimisation qu’une classe d’algorithmes d’apprentissage métas basés sur les gradients (gradient-based meta-learning, GBML). Nous prouvons ensuite que, pour les réseaux de neurones sur-paramétrés et suffisamment profonds, les fonctions prédictives apprises par le MTL et le GBML sont proches. En particulier, ce résultat implique que les prédictions fournies par ces deux modèles sont similaires sur la même tâche inédite. Empiriquement, nous confirmons nos résultats théoriques en montrant qu’avec une mise en œuvre appropriée, le MTL est compétitif face aux meilleurs algorithmes GBML sur une série de benchmarks de classification d’images à faible exemplaire. Étant donné que les algorithmes GBML existants impliquent souvent une optimisation bi-niveaux de second ordre coûteuse, notre méthode MTL de premier ordre est d’un ordre de grandeur plus rapide sur des jeux de données à grande échelle tels que mini-ImageNet. Nous pensons que ce travail pourrait contribuer à réduire le fossé entre ces deux paradigmes d’apprentissage, tout en offrant une alternative computationnellement efficace au GBML, tout en supportant également une adaptation rapide aux tâches.