HyperAIHyperAI
il y a 18 jours

Transformateur d'vision débiaisé par attributs (AD-ViT) pour la ré-identification de personnes à long terme

{and Venu Govindaraju, Srirangaraj Setlur, Deen Mohan, Bhavin Jawade, Kyung Won Lee}
Résumé

La réidentification de personnes (re-ID) vise à retrouver les images d’une même identité parmi une galerie d’images de personnes capturées par différents appareils photo et sous divers angles. Toutefois, la plupart des travaux en réidentification de personnes supposent un cadre à court terme, caractérisé par une invariance de l’apparence. En revanche, dans un cadre à long terme, une forte variabilité visuelle est fréquemment observée en raison des changements dans les vêtements et les accessoires, ce qui rend la tâche beaucoup plus difficile. Par conséquent, apprendre des caractéristiques spécifiques à l’identité, indépendantes des caractéristiques variant dans le temps, est crucial pour assurer une réidentification robuste à long terme. À cet effet, nous proposons un Vision Transformer débiaisé par les attributs (AD-ViT), conçu pour fournir une supervision directe afin d’apprendre des caractéristiques propres à l’identité. Plus précisément, nous générons des étiquettes d’attributs pour les instances de personnes et les utilisons pour guider notre modèle à se concentrer sur les caractéristiques d’identité via une rétropropagation inversée des gradients. Nos expériences sur deux jeux de données de réidentification à long terme — LTCC et NKUP — montrent que la méthode proposée dépasse de manière cohérente les approches les plus avancées actuellement disponibles.