Exploiter le côté invariant de l'apprentissage génératif à zéro-shot

Les méthodes conventionnelles d'apprentissage à zéro tirage (ZSL) apprennent généralement une emboîture, par exemple, une carte visuelle-sémantique, pour traiter les échantillons visuels non vus de manière indirecte. Dans cet article, nous exploitons les réseaux de neurones adverses génératifs (GANs) et proposons une nouvelle méthode nommée LisGAN (Leveraging Invariant Side GAN), capable de générer directement des caractéristiques non vues à partir de bruits aléatoires conditionnés par des descriptions sémantiques. Plus précisément, nous entraînons un GAN de Wasserstein conditionnel dans lequel le générateur synthétise des caractéristiques non vues fausses à partir de bruits, tandis que le discriminateur distingue les fausses des vraies caractéristiques par un jeu minimax. Étant donné qu'une description sémantique peut correspondre à divers échantillons visuels synthétisés, et que la description sémantique est, figurativement parlant, l'âme des caractéristiques générées, nous introduisons dans cet article des échantillons âmes comme le côté invariant de l'apprentissage à zéro tirage génératif. Un échantillon âme est la représentation métaphorique d'une classe. Il visualise les aspects les plus sémantiquement pertinents de chaque échantillon dans la même catégorie. Nous régularisons afin que chaque échantillon généré (le côté variable de l'apprentissage à zéro tirage génératif) soit proche d'au moins un échantillon âme (le côté invariant) qui partage avec lui la même étiquette de classe. À l'étape de reconnaissance à zéro tirage, nous proposons d'utiliser deux classifieurs déployés en cascade pour obtenir un résultat progressif du grossier au fin. Les expériences menées sur cinq benchmarks populaires montrent que notre approche proposée surpassent les méthodes d'avant-garde avec des améliorations significatives.