Prédiction de la compatibilité visuelle contextuelle

Comment déterminer si deux articles de vêtements ou plus sont compatibles ou visuellement agréables ? Une partie de la réponse réside dans la compréhension des esthétiques visuelles et est influencée par les préférences personnelles façonnées par les attitudes sociales, le temps et l'endroit. Dans ce travail, nous proposons une méthode qui prédit la compatibilité entre deux articles en fonction de leurs caractéristiques visuelles ainsi que de leur contexte. Nous définissons le contexte comme l'ensemble des produits connus pour être compatibles avec chacun de ces articles. Notre modèle se distingue des autres approches d'apprentissage métrique qui reposent uniquement sur des comparaisons binaires entre les caractéristiques des articles. Nous abordons le problème de prédiction de compatibilité en utilisant un réseau neuronal graphique qui apprend à générer des plongements (embeddings) de produits conditionnés par leur contexte. Nous présentons les résultats pour deux tâches de prédiction (remplir les blancs et compatibilité d'ensemble) testées sur deux jeux de données de mode, Polyvore et Fashion-Gen, ainsi que sur un sous-ensemble du jeu de données Amazon ; nous obtenons des résultats d'état de l'art lorsque nous utilisons des informations contextuelles et montrons comment les performances en test s'améliorent à mesure que davantage de contexte est utilisé.