Pyramidenförmige räumlich-zeitliche Aggregation für die personenbasierte Re-Identifikation auf Basis von Videos

Die videobasierte Personen-Identifizierung zielt darauf ab, Videoclips derselben Person über mehrere nicht überlappende Kameras hinweg zu verknüpfen. Raumzeitliche Darstellungen können zwischen den Bildern reichhaltige und ergänzende Informationen liefern, die entscheidend sind, um die Zielperson auch bei Verdeckung zu unterscheiden. In diesem Artikel wird ein neuartiger Pyramid Spatial-Temporal Aggregation (PSTA)-Rahmen vorgestellt, der framebasierte Merkmale schrittweise aggregiert und hierarchische zeitliche Merkmale in eine abschließende videobasierte Darstellung integriert. Dadurch können sowohl kurzfristige als auch langfristige zeitliche Informationen durch unterschiedliche Hierarchien effektiv ausgenutzt werden. Darüber hinaus wird ein Spatial-Temporal Aggregation Module (STAM) vorgeschlagen, um die Aggregationsfähigkeit von PSTA zu verbessern. Das STAM besteht hauptsächlich aus zwei neuen Aufmerksamkeitsblöcken: dem Spatial Reference Attention (SRA) und dem Temporal Reference Attention (TRA). Der SRA untersucht die räumlichen Korrelationen innerhalb eines Bildes, um die Aufmerksamkeitsgewichte jeder Position zu bestimmen. Der TRA erweitert den SRA um die Korrelationen zwischen benachbarten Bildern, sodass die zeitliche Konsistenzinformation vollständig ausgenutzt werden kann, um störende Merkmale zu unterdrücken und die diskriminativen Merkmale zu verstärken. Umfangreiche Experimente auf mehreren anspruchsvollen Benchmarks belegen die Wirksamkeit des vorgeschlagenen PSTA-Verfahrens. Unser vollständiges Modell erreicht eine Rank-1-Accuracy von 91,5 % und 98,3 % auf den Benchmarks MARS und DukeMTMC-VID.