HyperAIHyperAI
il y a 15 jours

Pyramide multi-directionnelle et multi-échelle dans les Transformateurs pour la récupération de piétons basée sur la vidéo

{Xianghao Zang; Ge Li; Wei Gao}
Pyramide multi-directionnelle et multi-échelle dans les Transformateurs pour la récupération de piétons basée sur la vidéo
Résumé

Dans la surveillance vidéo, la récupération de piétons (également appelée ré-identification de personnes) constitue une tâche cruciale. L’objectif de cette tâche est de retrouver le piéton d’intérêt à partir de caméras non chevauchantes. Récemment, les modèles basés sur les transformateurs ont obtenu des progrès significatifs pour cette tâche. Toutefois, ces modèles souffrent encore du manque d’attention portée aux informations fines, partielles et contextuelles. Ce papier propose une architecture Pyramid dans Transformer (PiT) multi-directionnelle et multi-échelle afin de résoudre ce problème. Dans une architecture basée sur les transformateurs, chaque image de piéton est divisée en plusieurs patches. Ces patches sont ensuite introduits dans des couches de transformateurs pour extraire la représentation de caractéristiques de l’image. Pour exploiter les informations fines, ce travail propose d’appliquer des divisions verticales et horizontales sur ces patches, afin de générer différentes parties du corps humain selon des directions variées. Ces parties fournissent une information plus fine. Pour fusionner les représentations de caractéristiques à plusieurs échelles, ce travail introduit une structure pyramidale intégrant à la fois des informations de niveau global et de nombreuses informations locales provenant de différentes échelles. Les pyramides de caractéristiques de toutes les images de piétons issues d’une même vidéo sont fusionnées afin d’obtenir une représentation finale multi-directionnelle et multi-échelle. Les résultats expérimentaux sur deux benchmarks exigeants basés sur des vidéos, MARS et iLIDS-VID, montrent que le PiT proposé atteint des performances de pointe. Des études ablatives étendues démontrent l’efficacité supérieure de la structure pyramidale proposée. Le code est disponible à l’adresse suivante : https://git.openi.org.cn/zangxh/PiT.git.

Pyramide multi-directionnelle et multi-échelle dans les Transformateurs pour la récupération de piétons basée sur la vidéo | Articles de recherche récents | HyperAI