f-VAEGAN-D2 : Un cadre de génération de caractéristiques pour l'apprentissage en n'importe quel nombre de shots

Lorsque les données d'entraînement étiquetées sont rares, une approche prometteuse de l'augmentation de données consiste à générer des caractéristiques visuelles de classes inconnues en utilisant leurs attributs. Pour apprendre la distribution conditionnelle des classes des caractéristiques CNN, ces modèles s'appuient sur des paires de caractéristiques d'images et d'attributs de classe. Par conséquent, ils ne peuvent pas tirer parti de l'abondance d'échantillons de données non étiquetés. Dans cet article, nous abordons les problèmes d'apprentissage à n'importe quel coup (any-shot), c'est-à-dire l'apprentissage sans exemple (zero-shot) et avec peu d'exemples (few-shot), dans un cadre unifié de génération de caractéristiques qui fonctionne aussi bien dans les configurations d'apprentissage inductif que transductif. Nous développons un modèle génératif conditionnel qui combine les forces des VAE (Variational Autoencoders) et des GANs (Generative Adversarial Networks), et en outre, grâce à un discriminateur non conditionnel, apprend la distribution marginale des caractéristiques d'images non étiquetées. Nous montrons empiriquement que notre modèle apprend des caractéristiques CNN hautement discriminantes pour cinq jeux de données, à savoir CUB, SUN, AWA et ImageNet, et établit un nouveau niveau d'état de l'art en apprentissage à n'importe quel coup, c'est-à-dire dans les configurations d'apprentissage inductif et transductif (généralisées) sans exemple et avec peu d'exemples. Nous démontrons également que nos caractéristiques apprises sont interprétables : nous les visualisons en les inversant dans l'espace pixel et nous les expliquons en générant des arguments textuels justifiant leur association avec une certaine étiquette.