Command Palette
Search for a command to run...
Marquage d'images zéro-shot rapide
Marquage d'images zéro-shot rapide
Zhang Yang Gong Boqing Shah Mubarak
Résumé
Les expériences classiques sur les analogies sémantiques montrent que les vecteurs de mots récents captent des régularités linguistiques fines au moyen d'offsets vectoriels linéaires, mais il reste incertain dans quelle mesure ces offsets simples peuvent encoder des régularités visuelles au sein des mots. Dans cet article, nous étudions une relation particulière entre images et mots, à savoir la pertinence d'un mot par rapport à une image donnée. Nos résultats montrent que les vecteurs de mots des étiquettes pertinentes pour une image donnée se situent en tête des étiquettes non pertinentes, selon une direction principale dans l'espace vectoriel des mots. Inspirés de cette observation, nous proposons de résoudre le problème d'annotation d'images en estimant la direction principale associée à une image. Plus précisément, nous exploitons des applications linéaires ainsi que des réseaux de neurones profonds non linéaires afin d'approcher cette direction principale à partir d'une image d'entrée. Nous obtenons ainsi un modèle d'annotation très polyvalent : il s'exécute rapidement sur une image de test, en temps constant par rapport à la taille de l'ensemble d'apprentissage. Ce modèle non seulement obtient des performances supérieures sur la tâche classique d'annotation d'images sur le jeu de données NUS-WIDE, mais dépasse également les méthodes de référence sur l'annotation d'images par des étiquettes inédites.