HyperAIHyperAI
il y a 17 jours

Récupération d'images de mode avec alignement multi-granulaire

Jinkuan Zhu, Hao Huang, Qiao Deng, Xiyao Li
Récupération d'images de mode avec alignement multi-granulaire
Résumé

La tâche de recherche d’images de mode vise à identifier les articles de mode pertinents correspondant à une image de requête dans une galerie. Les approches antérieures se sont concentrées sur la conception de fonctions de perte basées sur des distances, en rapprochant les paires pertinentes et en éloignant les images non pertinentes. Toutefois, ces méthodes négligent les caractéristiques fines des images de vêtements (par exemple, le col, les manchettes). Dans ce travail, nous proposons une nouvelle méthode de recherche d’images de mode exploitant à la fois les caractéristiques globales et fines, nommée Alignement Multi-Granulaire (MGA). Plus précisément, nous avons conçu un Agrégateur à Granularité Fine (FGA) afin de capturer et d’agréger des motifs détaillés. Ensuite, nous avons introduit une méthode d’Alignement de Tokens basée sur l’attention (ATA) pour aligner les caractéristiques d’image à plusieurs niveaux de granularité de manière progressive, du grossier au fin. Pour valider l’efficacité de notre méthode, nous avons mené des expériences sur deux sous-tâches (In-Shop et Consumer2Shop) du jeu de données public DeepFashion. Les résultats expérimentaux montrent que notre MGA dépasse les méthodes de pointe de 1,8 % et 0,6 % respectivement sur le métrique R@1 pour les deux sous-tâches.