SVDNet pour la recherche piétonnière

Ce document propose SVDNet pour les problèmes de recherche, en mettant l'accent sur l'application de la réidentification des personnes (re-ID). Nous considérons chaque vecteur de poids au sein d'une couche entièrement connectée (FC) dans un réseau neuronal convolutif (CNN) comme une base de projection. Il a été observé que ces vecteurs de poids sont généralement très corrélés. Ce problème entraîne des corrélations entre les entrées du descripteur FC et compromet les performances de recherche basées sur la distance euclidienne. Pour résoudre ce problème, cet article propose d'optimiser le processus d'apprentissage de représentation profonde à l'aide de la décomposition en vecteurs singuliers (SVD). Plus précisément, grâce au schéma d'entraînement par itération de contrainte et relaxation (RRI), nous sommes capables d'intégrer itérativement la contrainte d'orthogonalité lors de l'entraînement du CNN, aboutissant ainsi à ce qu'on appelle SVDNet. Nous avons mené des expériences sur les jeux de données Market-1501, CUHK03 et Duke, et montré que RRI réduit efficacement les corrélations entre les vecteurs de projection, produit des descripteurs FC plus discriminants et améliore considérablement la précision de la réidentification. Par exemple, sur le jeu de données Market-1501, la précision au rang 1 est passée de 55,3% à 80,5% pour CaffeNet, et de 73,8% à 82,3% pour ResNet-50.