HyperAIHyperAI

Command Palette

Search for a command to run...

MILDNet : Une architecture de classement profond légère à échelle unique

Anirudha Vishvakarma

Résumé

L'architecture de réseau neuronal convolutif profond multi-échelle [1, 2, 3] capture avec succès à la fois les descripteurs d'image fins et grossiers pour la tâche de similarité visuelle, mais elle présente un surcoût mémoire important et une latence élevée. Dans cet article, nous proposons une nouvelle architecture de réseau neuronal convolutif concurrente, appelée MILDNet, qui se distingue par sa compacité considérable (environ trois fois plus compacte). Inspirés par le fait que les couches successives d'un réseau neuronal convolutif représentent l'image avec des niveaux croissants d'abstraction, nous avons compressé notre modèle de classement profond en un seul réseau neuronal convolutif en couplant les activations de plusieurs couches intermédiaires avec la dernière couche. Entraîné sur le célèbre ensemble de données Street2shop [4], nous démontrons que notre approche performe aussi bien que les modèles actuels de pointe tout en utilisant seulement un tiers des paramètres, de la taille du modèle, du temps d'entraînement et en réduisant significativement le temps d'inférence. L'importance des couches intermédiaires dans la tâche de recherche d'images a également été démontrée sur des ensembles de données populaires tels que Holidays, Oxford et Paris [5]. Ainsi, même si nos expériences sont réalisées dans le domaine du commerce électronique, elles sont applicables à d'autres domaines. Nous avons également effectué une étude par élimination progressive pour valider notre hypothèse en vérifiant l'impact de l'ajout de chaque couche intermédiaire. À cette occasion, nous présentons deux variantes supplémentaires utiles de MILDNet : un modèle mobile (12 fois plus petit) destiné aux appareils embarqués et un modèle à caractéristiques compactes (embeddings de caractéristiques 512-d) pour les systèmes disposant de moins de RAM et afin de réduire le coût du classement. Nous proposons également une méthode intuitive pour créer automatiquement un ensemble de données triplets adapté en interne, ce qui est très difficile à réaliser manuellement. Cette solution peut également être déployée comme une solution complète pour la similarité visuelle. Enfin, nous présentons notre architecture entière au niveau productionnelle qui alimente actuellement la similarité visuelle chez Fynd.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp