Récupération de la mode via des réseaux de raisonnement graphique sur une pyramide de similarité

L'appariement d'images de vêtements entre les clients et les magasins en ligne présente des applications riches dans le domaine du commerce électronique. Les algorithmes existants codent une image sous forme de vecteur de caractéristiques globales et effectuent la recherche à l'aide de cette représentation globale. Cependant, les informations locales discriminantes sur les vêtements sont noyées dans cette représentation globale, entraînant des performances sous-optimales. Pour remédier à ce problème, nous proposons un nouveau réseau de raisonnement graphique (Graph Reasoning Network, GRNet) basé sur une pyramide de similarité, qui apprend les similarités entre une requête et un vêtement de la galerie en utilisant à la fois des représentations globales et locales à plusieurs échelles. La pyramide de similarité est représentée par un graphe de similarité, où les nœuds représentent les similarités entre les composants des vêtements à différentes échelles, et le score d'appariement final est obtenu par passage de messages le long des arêtes. Dans GRNet, le raisonnement graphique est résolu par l'entraînement d'un réseau neuronal convolutif graphique, permettant d'aligner les composants saillants des vêtements pour améliorer la recherche d'images de vêtements. Pour faciliter les recherches futures, nous introduisons un nouveau benchmark appelé FindFashion, contenant des annotations riches de boîtes englobantes, points de vue, occultations et rognages. Des expériences approfondies montrent que GRNet obtient de nouveaux résultats d'état de l'art sur deux benchmarks difficiles : il augmente respectivement les précisions top-1, top-20 et top-50 sur DeepFashion à 26 %, 64 % et 75 % (soit des améliorations absolues respectives de 4 %, 10 % et 10 %), surpassant largement ses concurrents. Sur FindFashion, GRNet réalise également des améliorations notables dans tous les scénarios empiriques.