Apprentissage méta efficace en mémoire avec des images de grande taille

Les approches d’apprentissage métadédié pour la classification en peu d’exemples sont particulièrement efficaces en termes de calcul au moment de l’évaluation, nécessitant uniquement quelques étapes d’optimisation ou une seule passe avant (forward pass) pour apprendre une nouvelle tâche. Toutefois, elles restent très exigeantes en mémoire durant l’entraînement. Cette limitation provient du fait qu’ensemble complet de données d’appui (support set) d’une tâche, pouvant contenir jusqu’à 1000 images, doit être entièrement traité avant qu’une étape d’optimisation puisse être effectuée. L’exploitation des gains de performance offerts par des images de grande taille exige donc soit une parallélisation du méta-apprenant sur plusieurs GPU — une ressource qui peut ne pas être disponible — soit des compromis entre la taille des tâches et celle des images lorsque des contraintes mémoire s’appliquent. Nous améliorons ces deux options en proposant LITE, un schéma général d’entraînement épisodique efficace en mémoire, permettant l’entraînement métadédié sur des tâches complexes composées d’images de grande taille, sur une seule carte GPU. Cela est rendu possible par l’observation que les gradients associés à une tâche peuvent être décomposés comme une somme des gradients calculés sur chacune des images d’apprentissage de cette tâche. Cette propriété nous permet d’effectuer une passe avant sur l’ensemble des images d’apprentissage d’une tâche, tout en réalisant des économies significatives de mémoire en n’effectuant la rétropropagation (back-propagation) que sur un sous-ensemble aléatoire de ces images, que nous montrons constituer une approximation non biaisée du gradient complet. Nous utilisons LITE pour entraîner des méta-apprenants, et démontrons de nouvelles performances de pointe sur le benchmark ORBIT réel et sur 3 des 4 composantes du difficile benchmark VTAB+MD, par rapport aux méta-apprenants les plus performants actuellement. En outre, LITE permet aux méta-apprenants de rivaliser avec les approches d’apprentissage transféré, tout en nécessitant une fraction du coût computationnel au moment de l’évaluation, ce qui constitue une contrepartie directe à la narration récente selon laquelle l’apprentissage transféré serait la seule solution nécessaire pour la classification en peu d’exemples.