Apprentissage à zéro par combinaison convexe des plongements sémantiques

Plusieurs publications récentes ont proposé des méthodes pour cartographier les images dans des espaces d'embeddings sémantiques continus. Dans certains cas, l'espace d'embedding est formé conjointement avec la transformation d'image. Dans d'autres cas, l'espace d'embedding sémantique est établi par une tâche de traitement du langage naturel indépendante, puis la transformation de l'image dans cet espace est apprise lors d'une deuxième étape. Les partisans de ces systèmes d'embedding d'images ont souligné leurs avantages par rapport à la méthode traditionnelle de classification \nway{} pour la compréhension des images, en particulier en termes de potentiel pour l'apprentissage à zéro exemple -- la capacité d'annoter correctement des images de catégories d'objets jamais vues auparavant. Dans cet article, nous proposons une méthode simple pour construire un système d'embedding d'images à partir de tout classifieur d'images existant \nway{} et d'un modèle d'embedding lexical sémantique, qui contient les étiquettes de classe $\n$ dans son vocabulaire. Notre méthode mappe les images dans l'espace d'embedding sémantique par combinaison convexe des vecteurs d'embedding des étiquettes de classe, sans nécessiter aucun entraînement supplémentaire. Nous montrons que cette méthode simple et directe confère beaucoup des avantages associés aux schémas plus complexes d'embedding d'images, et qu'elle surpasse même les méthodes de pointe sur la tâche d'apprentissage à zéro exemple ImageNet.