il y a 13 jours

Apprentissage de représentations omni-échelles généralisables pour la ré-identification de personnes

Kaiyang Zhou, Yongxin Yang, Andrea Cavallaro, Tao Xiang

Résumé

Un modèle efficace de ré-identification de personnes (re-ID) doit apprendre des représentations de caractéristiques à la fois discriminantes, afin de distinguer des individus aux apparences similaires, et généralisables, pour être déployé sur différents jeux de données sans adaptation. Dans cet article, nous proposons de nouvelles architectures de réseaux de neurones convolutifs (CNN) pour relever ces deux défis. Premièrement, nous introduisons une CNN pour la ré-identification appelée réseau omni-échelle (OSNet), conçue pour extraire des caractéristiques capables de capturer différentes échelles spatiales tout en intégrant une combinaison synergique de plusieurs échelles, appelées caractéristiques omni-échelle. Le bloc de base repose sur plusieurs flux convolutifs, chacun détectant des caractéristiques à une échelle spécifique. Pour l’apprentissage des caractéristiques omni-échelle, une porte d’agrégation unifiée est introduite afin de fusionner dynamiquement les caractéristiques multi-échelle à l’aide de poids canal par canal. OSNet est léger, car ses blocs de construction reposent sur des convolutions factorisées. Deuxièmement, pour améliorer l’apprentissage de caractéristiques généralisables, nous intégrons des couches d’instanciation normalisée (IN) dans OSNet afin de faire face aux disparités entre jeux de données. En outre, pour déterminer les emplacements optimaux de ces couches IN dans l’architecture, nous formulons un algorithme efficace de recherche d’architecture différentiable. Des expériences étendues montrent qu’en condition classique de même jeu de données, OSNet atteint des performances de pointe, bien qu’être nettement plus petit que les modèles de ré-identification existants. En condition plus exigeante mais plus pratique de croisement de jeux de données, OSNet surpasse la plupart des méthodes récentes d’adaptation de domaine non supervisée, sans utiliser aucune donnée cible. Le code et les modèles sont disponibles à l’adresse \texttt{https://github.com/KaiyangZhou/deep-person-reid}.