Apprentissage généralisé par cycles cohérents multi-modaux

Dans l'apprentissage par transfert généralisé (GZSL), l'ensemble des classes est divisé en classes vues et non vues, où l'entraînement repose sur les caractéristiques sémantiques des classes vues et non vues ainsi que sur les représentations visuelles uniquement des classes vues, tandis que le test utilise les représentations visuelles des classes vues et non vues. Les méthodes actuelles abordent le GZSL en apprenant une transformation de l'espace visuel vers l'espace sémantique, en explorant l'hypothèse que la distribution des classes dans les espaces sémantique et visuel est relativement similaire. Ces méthodes ont tendance à transformer les représentations visuelles non vues lors du test en caractéristiques sémantiques d'une des classes vues plutôt qu'en caractéristiques sémantiques de la classe non vue correcte, ce qui entraîne une faible précision de classification GZSL. Récemment, les réseaux adversariaux génératifs (GAN) ont été utilisés pour synthétiser des représentations visuelles des classes non vues à partir de leurs caractéristiques sémantiques – les représentations synthétisées des classes vues et non vues sont ensuite utilisées pour entraîner le classifieur GZSL. Cette approche a été démontrée comme améliorant la précision de classification GZSL, cependant, il n'y a aucune garantie que les représentations visuelles synthétiques puissent reconstruire leurs caractéristiques sémantiques de manière cycliquement cohérente multi-modale. Cette contrainte peut entraîner des représentations visuelles synthétiques qui ne reflètent pas bien leurs caractéristiques sémantiques. Dans cet article, nous proposons d'utiliser cette contrainte basée sur une nouvelle régularisation pour l'entraînement des GAN, qui force les caractéristiques visuelles générées à reconstruire leurs caractéristiques sémantiques originales. Une fois notre modèle entraîné avec cette compatibilité sémantique cycliquement cohérente multi-modale, nous pouvons alors synthétiser des représentations visuelles plus représentatives pour les classes vues et, plus important encore, pour les classes non vues. Notre approche proposée montre les meilleurs résultats de classification GZSL dans le domaine sur plusieurs jeux de données publiquement disponibles.