HyperAIHyperAI
il y a 7 jours

GiT : Graph Interactive Transformer pour la réidentification de véhicules

Fei Shen, Yi Xie, Jianqing Zhu, Xiaobin Zhu, Huanqiang Zeng
GiT : Graph Interactive Transformer pour la réidentification de véhicules
Résumé

Les Transformers gagnent de plus en plus en popularité en vision par ordinateur, en traitant une image comme une séquence de patches et en apprenant des caractéristiques globales robustes à partir de cette séquence. Toutefois, les Transformers purs ne sont pas entièrement adaptés à la réidentification de véhicules, car celle-ci nécessite à la fois des caractéristiques globales robustes et des caractéristiques locales discriminantes. À cet effet, cette étude propose un Transformer interactif à graphe (GiT). Sur le plan macroscopique, une série de blocs GiT est empilée pour construire un modèle de réidentification de véhicules, où les graphes sont utilisés pour extraire des caractéristiques locales discriminantes au sein des patches, tandis que les Transformers permettent d’extraire des caractéristiques globales robustes entre les patches. Sur le plan microscopique, les graphes et les Transformers sont en interaction mutuelle, favorisant une coopération efficace entre les caractéristiques locales et globales. Plus précisément, un graphe actuel est intégré après le graphe et le Transformer du niveau précédent, tandis qu’un Transformer actuel est inséré après le graphe actuel et le Transformer du niveau précédent. En outre à cette interaction entre graphes et Transformers, le graphe est un nouveau graphe de correction locale conçu spécifiquement, qui apprend des caractéristiques locales discriminantes au sein d’un patch en explorant les relations entre les nœuds. Des expériences étendues sur trois grands jeux de données de réidentification de véhicules démontrent que notre méthode GiT surpasse les approches les plus avancées dans ce domaine.