MSINet : Recherche contrastive jumelle de l'interaction multi-échelle pour la réidentification d'objets

La recherche de l'architecture neuronale (Neural Architecture Search, NAS) est devenue de plus en plus attractive pour la communauté de réidentification d'objets (Re-Identification, ReID), car les architectures spécifiques à cette tâche améliorent considérablement les performances de recherche. Les travaux précédents ont exploré de nouvelles cibles d'optimisation et des espaces de recherche pour le NAS ReID, mais ils négligent les différences entre les schémas d'entraînement pour la classification d'images et ceux pour la ReID. Dans ce travail, nous proposons un nouveau mécanisme de contraste jumeau (Twins Contrastive Mechanism, TCM) afin de fournir une supervision plus appropriée pour la recherche d'architecture ReID. Le TCM réduit les chevauchements catégoriels entre les données d'entraînement et de validation, et aide le NAS à simuler des schémas d'entraînement ReID du monde réel. Nous concevons ensuite un espace de recherche d'interaction multi-échelle (Multi-Scale Interaction, MSI) pour rechercher des opérations d'interaction rationnelles entre les caractéristiques multi-échelles. De plus, nous introduisons un module d'alignement spatial (Spatial Alignment Module, SAM) pour renforcer davantage la cohérence de l'attention face aux images provenant de différentes sources. Sous le cadre proposé du NAS, une architecture spécifique est recherchée automatiquement et nommée MSINet. Des expériences approfondies montrent que notre méthode surpasse les méthodes ReID actuelles dans des scénarios intra-domaine et inter-domaine. Le code source est disponible sur https://github.com/vimar-gu/MSINet.