Au-delà des modèles de parties : Recherche de personnes avec un regroupement de parties affiné (et une forte base convolutive)

L'utilisation de caractéristiques au niveau des parties pour la description d'images de piétons offre des informations détaillées et a été vérifiée comme étant bénéfique pour la recherche de personnes dans des publications très récentes. Un prérequis de la découverte des parties est que chaque partie soit bien localisée. Au lieu d'utiliser des indices externes, par exemple l'estimation de la posture, pour localiser directement les parties, cet article met l'accent sur la cohérence du contenu au sein de chaque partie.Plus précisément, nous visons à apprendre des caractéristiques informatives au niveau des parties pour la recherche de personnes et apportons deux contributions. (i) Un réseau nommé Part-based Convolutional Baseline (PCB). Étant donné une image en entrée, il génère un descripteur convolutif composé de plusieurs caractéristiques au niveau des parties. Avec une stratégie de partition uniforme, le PCB obtient des résultats compétitifs comparables aux méthodes les plus avancées actuellement disponibles, ce qui prouve sa robustesse en tant que base convolutive solide pour la recherche de personnes.(ii) Une méthode de regroupement raffiné des parties (RPP). La partition uniforme entraîne inévitablement l'apparition d'éléments aberrants dans chaque partie, qui sont en fait plus similaires à d'autres parties. Le RPP réaffecte ces éléments aberrants aux parties auxquelles ils sont le plus proches, aboutissant ainsi à des parties raffinées avec une cohérence interne améliorée. Les expériences confirment que le RPP permet au PCB d'obtenir une nouvelle amélioration de ses performances. Par exemple, sur le jeu de données Market-1501, nous atteignons un mAP de (77,4 + 4,2)% et une précision rank-1 de (92,3 + 1,5)%, surpassant largement l'état de l'art.