Transformateur déconnecté par vue pour la réidentification de personnes dans un réseau de caméras aériennes et terrestres

Les méthodes existantes de réidentification de personnes ont obtenu des progrès remarquables dans l’association d’identité basée sur l’apparence entre caméras homogènes, telles que les correspondances au sol-sol. Toutefois, dans un scénario plus pratique, la réidentification de personnes aérienne-terrestre (AGPReID) entre caméras hétérogènes a reçu une attention minimale. Pour atténuer la perturbation de la représentation discriminative de l’identité causée par le décalage de vue important, qui constitue le défi majeur de l’AGPReID, nous proposons un cadre simple mais efficace appelé View-Decoupled Transformer (VDT). Deux composants principaux sont conçus dans VDT afin de découpler les caractéristiques liées à la vue et celles indépendantes de la vue : une séparation soustractive hiérarchique et une perte orthogonale. La première permet de séparer ces deux types de caractéristiques à l’intérieur du VDT, tandis que la seconde impose leur indépendance mutuelle. En outre, nous introduisons un nouveau jeu de données à grande échelle pour l’AGPReID, nommé CARGO, comprenant cinq/huit caméras aériennes/terrestres, 5 000 identités et 108 563 images. Des expériences menées sur deux jeux de données montrent que VDT constitue une solution viable et efficace pour l’AGPReID, dépassant la méthode précédente en termes de mAP/Rank1 de jusqu’à 5,0 %/2,7 % sur CARGO et de 3,7 %/5,2 % sur AG-ReID, tout en conservant un niveau de complexité computationnelle similaire. Le projet est disponible à l’adresse suivante : https://github.com/LinlyAC/VDT-AGPReID