HyperAIHyperAI
il y a 16 jours

Caractéristiques Multi-Échelles Basées sur Transformer pour la Ré-Identification Non Supervisée de Personnes

Jiachen Li, Menglin Wang, Xiaojin Gong
Caractéristiques Multi-Échelles Basées sur Transformer pour la Ré-Identification Non Supervisée de Personnes
Résumé

Les caractéristiques à plusieurs grains extraites à partir de réseaux de neurones convolutifs (CNN) ont démontré une forte capacité de discrimination dans les tâches supervisées de réidentification de personnes (Re-ID). Inspirés par ces résultats, nous explorons dans ce travail une méthode d’extraction de caractéristiques à plusieurs grains à partir d’un réseau pur transformer afin de résoudre le problème de Re-ID non supervisé, qui est privé d’étiquettes mais bien plus difficile. À cette fin, nous proposons une architecture de réseau à deux branches fondée sur une version modifiée du Vision Transformer (ViT). Les tokens locaux produits dans chaque branche sont redimensionnés puis uniformément partitionnés en plusieurs bandes afin de générer des caractéristiques au niveau des parties, tandis que les tokens globaux des deux branches sont moyennés pour produire une caractéristique globale. Par ailleurs, en s’appuyant sur la méthode d’état de l’art de Re-ID non supervisé appelée O2CAP (offline-online associated camera-aware proxies), nous définissons des pertes d’apprentissage contrastif hors ligne et en ligne respectivement pour les caractéristiques globales et partielles, afin de réaliser un apprentissage non supervisé. Des expérimentations étendues sur trois jeux de données de Re-ID de personnes montrent que la méthode proposée dépasse significativement les méthodes non supervisées de pointe, réduisant considérablement l’écart par rapport aux approches supervisées. Le code sera bientôt disponible à l’adresse suivante : https://github.com/RikoLi/WACV23-workshop-TMGF.