Apprentissage de représentations profondes de descriptions visuelles détaillées

Les méthodes les plus avancées pour la reconnaissance visuelle à zéro coup formulent l'apprentissage comme un problème d'embedding conjoint des images et des informations annexes. Dans ces formulations, le meilleur complément actuel aux caractéristiques visuelles sont les attributs : des vecteurs encodés manuellement décrivant les caractéristiques partagées entre les catégories. Malgré de bonnes performances, les attributs présentent des limitations : (1) une reconnaissance plus fine nécessite un nombre proportionnellement plus grand d'attributs, et (2) les attributs ne fournissent pas une interface naturelle en langage. Nous proposons de surmonter ces limitations en entraînant des modèles de langage neuronal à partir de zéro ; c'est-à-dire sans pré-entraînement et en consommant uniquement des mots et des caractères. Nos modèles proposés s'entraînent de bout en bout pour s'aligner avec le contenu spécifique et finement granulaire des images. Le langage naturel fournit un moyen flexible et concis d'encoder uniquement les aspects visuels saillants nécessaires pour distinguer les catégories. En s'entraînant sur du texte brut, notre modèle peut également effectuer des inférences sur du texte brut, offrant aux humains un mode familier tant pour l'annotation que pour la recherche. Notre modèle obtient de solides performances dans la recherche d'images basée sur du texte à zéro coup et dépasse considérablement l'état de l'art basé sur les attributs pour la classification à zéro coup sur le jeu de données Caltech UCSD Birds 200-2011.