HyperAIHyperAI
il y a un mois

Apprentissage de caractéristiques multi-échelles pour la réidentification de personnes

Kaiyang Zhou; Yongxin Yang; Andrea Cavallaro; Tao Xiang
Apprentissage de caractéristiques multi-échelles pour la réidentification de personnes
Résumé

En tant que problème de reconnaissance au niveau des instances, la réidentification de personnes (ReID) repose sur des caractéristiques discriminantes, qui non seulement capturent différentes échelles spatiales mais également encapsulent une combinaison arbitraire de plusieurs échelles. Nous appelons ces caractéristiques, qu'elles soient homogènes ou hétérogènes en termes d'échelle, des caractéristiques omni-échelles. Dans cet article, un nouveau réseau neuronal convolutif profond pour la ReID est conçu, dénommé Réseau Omniscale (OSNet), afin d'apprendre des caractéristiques omni-échelles. Cela est réalisé en concevant un bloc résiduel composé de plusieurs flux de convolution, chacun détectant des caractéristiques à une certaine échelle. De manière importante, une nouvelle porte d'agrégation unifiée est introduite pour fusionner dynamiquement les caractéristiques multi-échelles avec des poids spécifiques aux canaux et dépendants de l'entrée. Pour apprendre efficacement les corrélations spatiales-canales et éviter le surapprentissage, le bloc de construction utilise des convolutions ponctuelles et en profondeur. En empilant ces blocs couche par couche, notre OSNet est extrêmement léger et peut être entraîné à partir de zéro sur des benchmarks existants de ReID. Malgré sa petite taille de modèle, OSNet atteint des performances d'état de l'art sur six jeux de données de réidentification de personnes, surpassant la plupart des modèles volumineux, souvent avec une marge claire. Le code source et les modèles sont disponibles à l'adresse suivante : \url{https://github.com/KaiyangZhou/deep-person-reid}.