Récupération d'images de mode avec des réseaux de capsules

Dans cette étude, nous examinons les performances de recherche de vêtements en magasin des réseaux de capsules (Capsule Networks) densément connectés avec routage dynamique. Pour ce faire, nous proposons une conception basée sur des triplets de l'architecture des réseaux de capsules utilisant deux méthodes différentes d'extraction de caractéristiques. Dans notre conception, des blocs convolutifs empilés (Stacked-convolutional, SC) et des blocs connectés résiduels (Residual-connected, RC) sont utilisés pour former l'entrée des couches de capsules. Les résultats expérimentaux montrent que nos deux conceptions surpassent toutes les variantes de l'étude de référence, à savoir FashionNet, sans s'appuyer sur les informations liées aux points d'intérêt. De plus, lorsqu'on les compare aux architectures d'avant-garde (SOTA) en matière de recherche de vêtements, nos réseaux de capsules basés sur des triplets atteignent des taux de rappel comparables en utilisant seulement la moitié du nombre de paramètres employés dans ces architectures SOTA.