Rétroaction sur l’embedding latent et caractéristiques discriminatives pour la classification zéro-shot

L’apprentissage zéro-shot vise à classifier des catégories inconnues pour lesquelles aucune donnée n’est disponible pendant l’entraînement. Dans sa variante généralisée, les échantillons de test peuvent appartenir à des catégories vues ou non vues. Les méthodes de pointe s’appuient sur les réseaux génératifs adverses (GAN) afin de synthétiser les caractéristiques des classes non vues en exploitant des embeddings sémantiques spécifiques aux classes. Pendant l’entraînement, ces modèles génèrent des caractéristiques sémantiquement cohérentes, mais relâchent cette contrainte lors de la synthèse des caractéristiques et de la classification. Nous proposons d’imposer la cohérence sémantique à toutes les étapes de l’apprentissage zéro-shot (généralisé) : entraînement, synthèse des caractéristiques et classification. Nous introduisons tout d’abord une boucle de rétroaction issue d’un décodeur d’embeddings sémantiques, qui affine itérativement les caractéristiques générées durant les phases d’entraînement et de synthèse. Les caractéristiques synthétisées, ainsi que leurs embeddings latents correspondants provenant du décodeur, sont ensuite transformées en caractéristiques discriminantes et utilisées lors de la classification, afin de réduire les ambiguïtés entre les catégories. Des expériences sur des tâches de classification d’objets et d’actions en apprentissage zéro-shot (généralisé) démontrent l’avantage de la cohérence sémantique et de la rétroaction itérative, surpassant les méthodes existantes sur six benchmarks d’apprentissage zéro-shot. Code source disponible à l’adresse https://github.com/akshitac8/tfvaegan.