Apprentissage généralisé zéro-et peu de données par auto-encodeurs variationnels alignés

De nombreuses approches dans le cadre de l’apprentissage zéro-shot généralisé reposent sur une correspondance entre l’espace des caractéristiques d’images et l’espace des embeddings de classes. Étant donné que les images étiquetées sont coûteuses à obtenir, une piste consiste à enrichir les jeux de données en générant soit des images, soit des caractéristiques d’images. Toutefois, la première approche néglige les détails fins, tandis que la seconde nécessite l’apprentissage d’une application liée aux embeddings de classes. Dans ce travail, nous allons plus loin dans la génération de caractéristiques en proposant un modèle qui apprend un espace latent partagé entre les caractéristiques d’images et les embeddings de classes à l’aide d’auto-encodeurs variationnels alignés spécifiques aux modalités. Cela nous permet de conserver les informations discriminantes essentielles relatives aux images et aux classes dans les caractéristiques latentes, sur lesquelles nous entraînons un classificateur softmax. Le point clé de notre approche réside dans l’alignement des distributions apprises à partir des images et des informations complémentaires afin de construire des caractéristiques latentes contenant les informations multimodales fondamentales associées aux classes inconnues. Nous évaluons nos caractéristiques latentes apprises sur plusieurs jeux de données standards — CUB, SUN, AWA1 et AWA2 — et établissons un nouveau record d’état de l’art pour l’apprentissage zéro-shot généralisé ainsi que pour l’apprentissage peu supervisé. En outre, nos résultats obtenus sur ImageNet avec diverses partitions zéro-shot montrent que nos caractéristiques latentes se généralisent efficacement dans des contextes à grande échelle.