Apprentissage métadifférentiel basé sur le gradient avec métrique intercalaire apprise et sous-espace

Les méthodes de méta-apprentissage basées sur les gradients exploitent la descente de gradient pour apprendre les similarités entre différentes tâches. Bien que ces méthodes aient été couronnées de succès dans le domaine du méta-apprentissage, elles se contentaient jusqu'à présent d'une descente de gradient simple lors des tests de méta-apprentissage. Notre contribution principale est l'introduction du {\em MT-net}, qui permet au méta-apprenant d'apprendre un sous-espace dans l'espace d'activation de chaque couche, sur lequel le apprenant spécifique à la tâche effectue la descente de gradient. De plus, un apprenant spécifique à la tâche dans un {\em MT-net} effectue une descente de gradient par rapport à une métrique de distance méta-apprise, ce qui déforme l'espace d'activation pour qu'il soit plus sensible à l'identité de la tâche. Nous montrons que la dimension de cet espace sous-appris reflète la complexité de la tâche d'adaptation spécifique à la tâche, et également que notre modèle est moins sensible au choix des taux d'apprentissage initiaux comparé aux méthodes précédentes de méta-apprentissage basées sur les gradients. Notre méthode atteint des performances équivalentes ou supérieures à l'état de l'art pour les tâches de classification et de régression avec peu d'exemples.