Comment Extraire les Tendances de la Mode des Réseaux Sociaux ? Un Détecteur d'Objets Robuste avec un Soutien pour l'Apprentissage Non Supervisé

Avec la prolifération des réseaux sociaux, la mode inspirée par les célébrités, les designers renommés et les influenceurs de mode a raccourci le cycle de conception et de fabrication de vêtements. Cependant, avec l'explosion du contenu lié à la mode et le grand nombre de photos de mode générées par les utilisateurs, il est une tâche ardue pour les stylistes de parcourir les photos sur les réseaux sociaux et d'en créer un résumé des tendances actuelles. Ceci nécessite une analyse approfondie des photos de mode sur les réseaux sociaux afin de localiser et classer plusieurs articles de mode à partir d'une photo donnée. Bien que des compétitions d'identification d'objets comme MSCOCO disposent de milliers d'échantillons pour chaque catégorie d'objet, il est assez difficile d'obtenir de grands ensembles de données étiquetés pour des articles de mode rapide (fast fashion). De plus, les détecteurs d'objets d'avant-garde n'ont aucune fonctionnalité permettant d'intégrer la grande quantité de données non étiquetées disponibles sur les réseaux sociaux afin d'affiner ces détecteurs avec des ensembles de données étiquetés.Dans cette étude, nous montrons l'application d'un détecteur générique d'objets qui peut être pré-entraîné de manière non supervisée sur 24 catégories issues du récent ensemble de données Open Images V4. Nous entraînons tout d'abord l'architecture de base du détecteur d'objets en utilisant un apprentissage non supervisé sur 60 000 photos non étiquetées provenant des 24 catégories collectées sur les réseaux sociaux, puis nous l'affinons ensuite sur 8 200 photos étiquetées issues du même ensemble de données Open Images V4. Pour des entrées d'images 300 x 300 pixels, nous obtenons un mAP (mean Average Precision) de 72,7 % sur un ensemble test composé de 2 400 photos, ce qui représente une amélioration allant jusqu'à 11 % à 17 % par rapport aux meilleurs détecteurs d'objets actuels. Nous démontrons que cette amélioration est due au choix architectural qui nous permet un apprentissage non supervisé et qui se distingue nettement dans l’identification des petits objets.