Le diable est dans les détails : aligner les indices visuels pour l'embedding conditionnel en réidentification de personnes

Bien que la réidentification de personnes (Person Re-Identification) ait connu des progrès remarquables, des cas difficiles tels que l’occlusion, le changement de point de vue ou le port de vêtements similaires continuent de poser de grandes difficultés. En plus des caractéristiques visuelles globales, la correspondance et la comparaison d’informations détaillées s’avèrent essentielles pour surmonter ces défis. Ce papier propose deux modèles de reconnaissance clés afin d’exploiter de manière plus efficace les informations détaillées des images de piétons, que la plupart des méthodes existantes ne parviennent pas à tirer parti. Premièrement, l’alignement des indices visuels (Visual Clue Alignment) impose au modèle de sélectionner et d’aligner des paires de régions significatives entre deux images pour une comparaison par paire, tandis que les méthodes existantes se contentent d’aligner des régions selon des règles prédéfinies, comme une forte similarité de caractéristiques ou des étiquettes sémantiques identiques. Deuxièmement, l’embedding conditionnel des caractéristiques (Conditional Feature Embedding) permet d’ajuster dynamiquement les caractéristiques globales d’une image de requête en fonction de l’image de galerie avec laquelle elle est associée, alors que la plupart des méthodes actuelles ignorent l’image de référence. En introduisant des techniques novatrices telles que le module d’attention de correspondance et un GCN basé sur la discrépance, nous proposons une méthode end-to-end de réidentification intégrant ces deux modèles dans un cadre unifié, nommé CACE-Net (C)lue(A)lignment and (C)onditional (E)mbedding. Les expérimentations montrent que CACE-Net atteint des performances de pointe sur trois jeux de données publics.