MILDNet : Une architecture de classement profond légère à échelle unique

L'architecture de réseau neuronal convolutif profond multi-échelle [1, 2, 3] capture avec succès à la fois les descripteurs d'image fins et grossiers pour la tâche de similarité visuelle, mais elle présente un surcoût mémoire important et une latence élevée. Dans cet article, nous proposons une nouvelle architecture de réseau neuronal convolutif concurrente, appelée MILDNet, qui se distingue par sa compacité considérable (environ trois fois plus compacte). Inspirés par le fait que les couches successives d'un réseau neuronal convolutif représentent l'image avec des niveaux croissants d'abstraction, nous avons compressé notre modèle de classement profond en un seul réseau neuronal convolutif en couplant les activations de plusieurs couches intermédiaires avec la dernière couche. Entraîné sur le célèbre ensemble de données Street2shop [4], nous démontrons que notre approche performe aussi bien que les modèles actuels de pointe tout en utilisant seulement un tiers des paramètres, de la taille du modèle, du temps d'entraînement et en réduisant significativement le temps d'inférence. L'importance des couches intermédiaires dans la tâche de recherche d'images a également été démontrée sur des ensembles de données populaires tels que Holidays, Oxford et Paris [5]. Ainsi, même si nos expériences sont réalisées dans le domaine du commerce électronique, elles sont applicables à d'autres domaines. Nous avons également effectué une étude par élimination progressive pour valider notre hypothèse en vérifiant l'impact de l'ajout de chaque couche intermédiaire. À cette occasion, nous présentons deux variantes supplémentaires utiles de MILDNet : un modèle mobile (12 fois plus petit) destiné aux appareils embarqués et un modèle à caractéristiques compactes (embeddings de caractéristiques 512-d) pour les systèmes disposant de moins de RAM et afin de réduire le coût du classement. Nous proposons également une méthode intuitive pour créer automatiquement un ensemble de données triplets adapté en interne, ce qui est très difficile à réaliser manuellement. Cette solution peut également être déployée comme une solution complète pour la similarité visuelle. Enfin, nous présentons notre architecture entière au niveau productionnelle qui alimente actuellement la similarité visuelle chez Fynd.