Découverte automatique de concepts de mode spatialement conscients

Ce travail propose une approche automatique de découverte de concepts spatialement conscients en utilisant des données image-texte faiblement étiquetées provenant de sites de shopping. Nous commençons par affiner GoogleNet en modélisant conjointement les images de vêtements et leurs descriptions correspondantes dans un espace d'embedding visuel-sémantique. Ensuite, pour chaque attribut (mot), nous générons sa représentation spatialement consciente en combinant son vecteur sémantique lexical avec sa représentation spatiale dérivée des cartes de convolution du réseau affiné. Les représentations spatialement conscientes ainsi obtenues sont ensuite utilisées pour regrouper les attributs en plusieurs clusters afin de former des concepts spatialement conscients (par exemple, le concept du col pourrait inclure des attributs tels que col en V, col rond, etc.). Enfin, nous décomposons l'espace d'embedding visuel-sémantique en plusieurs sous-espaces spécifiques aux concepts, ce qui facilite la navigation structurée et la recherche de produits par retour d'attribut en exploitant les régularités linguistiques multimodales. Nous avons mené des expériences approfondies sur notre nouveau jeu de données Fashion200K, et les résultats évalués sur la qualité du clustering et la tâche de recherche de produits par retour d'attribut démontrent l'efficacité de nos concepts spatialement conscients découverts automatiquement.