HyperAIHyperAI
il y a 2 mois

MovingFashion : une Benchmark pour le Défi Vidéo-vers-Boutique

Marco Godi; Christian Joppi; Geri Skenderi; Marco Cristani
MovingFashion : une Benchmark pour le Défi Vidéo-vers-Boutique
Résumé

La récupération de vêtements portés dans des vidéos de médias sociaux (Instagram, TikTok) représente la dernière frontière de la mode en ligne, connue sous le nom de « vidéo-à-boutique » (video-to-shop) dans la littérature sur la vision par ordinateur. Dans cet article, nous présentons MovingFashion, le premier ensemble de données publiquement disponible pour relever ce défi. MovingFashion est composé de 14 855 vidéos sociales, chacune associée à des images d'e-commerce « boutique » où les articles de vêtements correspondants sont clairement représentés. De plus, nous proposons un réseau pour la récupération d'images de boutique dans ce contexte, appelé SEAM Match-RCNN. Le modèle est formé par adaptation de domaine d'image à vidéo, permettant l'utilisation de séquences vidéo où seule leur association avec une image de boutique est fournie, éliminant ainsi la nécessité de millions de boîtes englobantes annotées. SEAM Match-RCNN construit une empreinte numérique (embedding), où une somme pondérée basée sur l'attention de quelques images (10) d'une vidéo sociale suffit pour identifier le produit correct parmi les cinq premiers éléments récupérés dans une galerie contenant plus de 14 000 éléments boutique avec une précision de 80 %. Ceci offre les meilleures performances sur MovingFashion, comparées exhaustivement aux approches les plus récentes et aux lignes directrices alternatives.

MovingFashion : une Benchmark pour le Défi Vidéo-vers-Boutique | Articles de recherche récents | HyperAI