Hashing supervisé profond pour une récupération d’images rapide

Dans cet article, nous présentons une nouvelle méthode de hachage permettant d’apprendre des codes binaires compacts pour une recherche d’images hautement efficace sur de grands ensembles de données. Bien que les variations complexes d’apparence des images continuent de poser un défi important pour une recherche fiable, compte tenu des progrès récents des réseaux de neurones convolutifs (CNN) dans l’apprentissage de représentations robustes pour diverses tâches de vision, ce papier propose une nouvelle méthode de hachage profond supervisé (Deep Supervised Hashing, DSH) afin d’apprendre des codes binaires compacts préservant la similarité pour de vastes collections de données d’images. Plus précisément, nous proposons une architecture CNN qui prend en entrée des paires d’images (similaires ou non similaires) et encourage la sortie associée à chaque image à s’approcher de valeurs discrètes (par exemple +1 ou -1). Pour atteindre cet objectif, une fonction de perte est soigneusement conçue afin de maximiser la discriminabilité de l’espace de sortie en intégrant les informations supervisées issues des paires d’images d’entrée, tout en imposant une régularisation sur les sorties à valeurs réelles pour les rapprocher des valeurs discrètes souhaitées. Pour la recherche d’images, les nouvelles images de requête peuvent être facilement encodées en propageant les données à travers le réseau, puis en quantifiant les sorties du réseau pour obtenir une représentation binaire. Des expériences étendues sur deux grands jeux de données, CIFAR-10 et NUS-WIDE, démontrent les performances prometteuses de notre méthode par rapport aux approches de pointe.