Apprentissage métadéductif transductif par Bayes empirique avec gradients synthétiques

Nous proposons une approche de méta-apprentissage qui apprend à partir de plusieurs tâches dans un cadre transductif, en exploitant à la fois l’ensemble de requêtes non étiquetées et l’ensemble de support pour générer un modèle plus puissant pour chaque tâche. Pour concevoir notre cadre, nous revisitons la formulation bayésienne empirique pour l’apprentissage multi-tâches. La borne inférieure de l’évidence (evidence lower bound) de la log-vraisemblance marginale dans le cadre bayésien empirique se décompose en une somme de divergences de KL locales entre la postérieure variationnelle et la vraie postérieure sur l’ensemble de requêtes de chaque tâche. Nous dérivons une nouvelle inférence variationnelle amortie qui couple toutes les postérieures variationnelles via un méta-modèle composé d’un réseau de gradient synthétique et d’un réseau d’initialisation. Chaque postérieure variationnelle est obtenue par une descente de gradient synthétique, visant à approcher la vraie postérieure sur l’ensemble de requêtes, bien que nous n’ayons pas accès au gradient réel. Nos résultats sur les benchmarks Mini-ImageNet et CIFAR-FS pour la classification à peu de exemples en épisodes surpassent les méthodes précédemment les plus performantes. En outre, nous menons deux expériences d’apprentissage zéro-shot afin d’explorer davantage le potentiel du gradient synthétique.