Command Palette
Search for a command to run...
Apprentissage généralisé à zéro et peu de tirages via des autoencodeurs variationnels alignés
Apprentissage généralisé à zéro et peu de tirages via des autoencodeurs variationnels alignés
Edgar Schönfeld Sayna Ebrahimi Samarth Sinha Trevor Darrell Zeynep Akata
Résumé
De nombreuses approches en apprentissage par transfert généralisé s'appuient sur une correspondance intermodale entre l'espace des caractéristiques d'image et l'espace des plongements de classe. Étant donné que les images étiquetées sont coûteuses, une direction consiste à augmenter le jeu de données en générant soit des images, soit des caractéristiques d'images. Cependant, la première méthode manque de détails fins et la seconde nécessite d'apprendre une correspondance associée aux plongements de classe. Dans ce travail, nous allons plus loin dans la génération de caractéristiques et proposons un modèle où un espace latent partagé des caractéristiques d'images et des plongements de classe est appris par des autoencodeurs variationnels alignés spécifiques à chaque modalité. Cela nous permet de disposer des informations discriminantes requises sur l'image et les classes dans les caractéristiques latentes, sur lesquelles nous formons un classifieur softmax. La clé de notre approche réside dans le fait que nous alignons les distributions apprises à partir des images et des informations annexes pour construire des caractéristiques latentes contenant les informations multimodales essentielles associées aux classes inconnues. Nous évaluons nos caractéristiques latentes apprises sur plusieurs jeux de données de référence, à savoir CUB, SUN, AWA1 et AWA2, et établissons un nouveau niveau d'excellence en apprentissage par transfert généralisé ainsi qu'en apprentissage avec peu d'exemples. De plus, nos résultats sur ImageNet avec diverses séparations zéro-shot montrent que nos caractéristiques latentes généralisent bien dans des configurations à grande échelle.