Adaptive Graph Representation Learning for Video Person Re-identification

In den letzten Jahren hat die Anwendung von Deep-Learning-Modellen in der Video-Person-Identifikation (Re-ID) erhebliche Fortschritte gemacht. Ein entscheidender Faktor für die Video-Person-Re-ID besteht darin, effektiv diskriminative und robuste Video-Feature-Repräsentationen für eine Vielzahl komplexer Situationen zu erzeugen. Part-basierte Ansätze nutzen räumliche und zeitliche Aufmerksamkeit, um repräsentative lokale Features zu extrahieren. Während in früheren Methoden die Korrelationen zwischen den Teilen vernachlässigt wurden, schlagen wir hier ein innovatives, adaptives Graph-Repräsentations-Lernverfahren für die Video-Person-Re-ID vor, das kontextuelle Interaktionen zwischen relevanten regionalen Features ermöglicht. Konkret nutzen wir die Pose-Ausrichtungs-Verbindung und die Feature-Ähnlichkeits-Verbindung, um einen adaptiven, strukturbewussten Adjazenzgraphen zu konstruieren, der die inhärenten Beziehungen zwischen den Knoten im Graphen modelliert. Wir führen eine Feature-Propagation auf dem Adjazenzgraphen durch, um die regionalen Features iterativ zu verfeinern, wobei die Informationen benachbarter Knoten für die Repräsentation der Teil-Features berücksichtigt werden. Um kompakte und diskriminative Repräsentationen zu lernen, schlagen wir außerdem eine neuartige temporalauflösungsadaptive Regularisierung vor, die die Konsistenz zwischen verschiedenen zeitlichen Auflösungen derselben Identitäten erzwingt. Wir führen umfangreiche Evaluierungen auf vier Benchmarks durch: iLIDS-VID, PRID2011, MARS und DukeMTMC-VideoReID. Die experimentellen Ergebnisse zeigen eine wettbewerbsfähige Leistung, die die Wirksamkeit unseres vorgeschlagenen Ansatzes belegt. Der Quellcode ist unter https://github.com/weleen/AGRL.pytorch verfügbar.