il y a 17 jours

Métapreuve avec gradients implicites

Aravind Rajeswaran, Chelsea Finn, Sham Kakade, Sergey Levine

Résumé

Une capacité fondamentale des systèmes intelligents est la capacité à apprendre rapidement de nouvelles tâches en s'appuyant sur une expérience antérieure. L'apprentissage métacommun (meta-learning) basé sur les gradients s'est récemment imposé comme une approche efficace pour l'apprentissage à très peu d'exemples (few-shot learning). Dans cette formulation, les méta-paramètres sont appris dans la boucle externe, tandis que des modèles spécifiques à chaque tâche sont appris dans la boucle interne, à l'aide uniquement d'un petit nombre d'exemples issus de la tâche courante. Un défi majeur dans le passage à l'échelle de ces méthodes réside dans la nécessité de différencier à travers le processus d'apprentissage de la boucle interne, ce qui peut engendrer des charges computationnelles et mémoire importantes. En s'appuyant sur la différenciation implicite, nous proposons l'algorithme MAML implicite, qui ne dépend que de la solution de l'optimisation de niveau interne, et non du parcours suivi par l'optimiseur de la boucle interne. Cette approche déconnecte efficacement le calcul du méta-gradient du choix de l'optimiseur utilisé dans la boucle interne. En conséquence, notre méthode est indépendante du choix de l'optimiseur interne et peut gérer de manière fluide un grand nombre d'étapes de gradient sans souffrir de disparition des gradients ni de contraintes mémoire. Théoriquement, nous démontrons que MAML implicite peut calculer des méta-gradient précis avec une empreinte mémoire, jusqu'à des facteurs constants négligeables, équivalente à celle requise pour calculer un seul gradient de boucle interne, sans augmentation globale du coût computationnel. Expérimentalement, nous montrons que ces avantages se traduisent par des gains empiriques significatifs sur des benchmarks d'identification d'images en peu d'exemples.