Sur l'efficacité déraisonnable des centroïdes dans la recherche d'images

La tâche de recherche d’images consiste à trouver des images similaires à une image de requête parmi un ensemble d’images de galerie (base de données). Ces systèmes sont utilisés dans diverses applications, telles que la réidentification de personnes (ReID) ou la recherche visuelle de produits. Malgré les progrès constants dans le développement des modèles de recherche, cette tâche reste difficile, principalement en raison d’une forte variance intra-classe provoquée par des changements d’angle de vue, d’éclairage, de perturbations dans le fond ou d’occlusion, tandis que la variance inter-classe peut rester relativement faible. Une grande partie des recherches actuelles se concentre sur la conception de caractéristiques plus robustes et sur la modification des fonctions objectifs, généralement basées sur la perte de triplet (Triplet Loss). Certaines études expérimentent l’utilisation de représentations centrales ou de proxies par classe afin de réduire les problèmes liés à la vitesse de calcul et à l’extraction des exemples difficiles (hard samples mining) associés à la Triplet Loss. Toutefois, ces approches sont utilisées uniquement pendant l’entraînement et sont abandonnées lors de la phase de recherche. Dans cet article, nous proposons d’utiliser la représentation par centroïde moyen tant pendant l’entraînement que pendant la recherche. Cette représentation agrégée est plus robuste aux valeurs aberrantes et garantit des caractéristiques plus stables. Étant donné qu’une classe est représentée par un seul vecteur d’embedding — le centroïde de la classe — le temps de recherche et les besoins en stockage sont significativement réduits. L’agrégation de plusieurs embeddings permet une réduction importante de l’espace de recherche, en diminuant le nombre de vecteurs candidats, ce qui rend la méthode particulièrement adaptée aux déploiements en production. Des expériences approfondies menées sur deux jeux de données de ReID et de recherche de mode démontrent l’efficacité de notre méthode, qui dépasse l’état de l’art actuel. Nous proposons l’entraînement et la recherche basés sur le centroïde comme une approche viable pour les applications de recherche de mode et de réidentification de personnes.