Raum-Zeit-Korrelation und Topologie-Lernen für die Wiedererkennung von Personen in Videos

Die video-basierte Person-Wiedererkennung (Person Re-Identification) strebt danach, Fußgänger in Videosequenzen über nicht überlappende Kameraperspektiven zu identifizieren. Der entscheidende Faktor für die video-basierte Person-Wiedererkennung besteht darin, räumliche und zeitliche Hinweise aus den Videosequenzen effektiv zu nutzen. In dieser Arbeit schlagen wir ein neues Framework zur Modellierung der räumlich-zeitlichen Korrelation und Topologie-Lernung (Spatial-Temporal Correlation and Topology Learning, CTL) vor, um durch die Modellierung der räumlich-zeitlichen Korrelation auf verschiedenen Skalen diskriminierende und robuste Darstellungen zu erzielen. Insbesondere nutzt CTL ein CNN-Kernnetzwerk und einen Schlüsselpunktschätzer, um semantische lokale Merkmale des menschlichen Körpers auf mehreren Granularitätsstufen als Graphknoten zu extrahieren. Es untersucht eine kontextverstärkte Topologie, um mehrskalige Graphen unter Berücksichtigung sowohl globaler Kontextinformationen als auch physischer Verbindungen des menschlichen Körpers zu konstruieren. Darüber hinaus wurden eine 3D-Graphkonvolution und eine über-skalierte Graphkonvolution entwickelt, die eine direkte Informationsausbreitung über Raum und Zeit sowie zwischen den Skalen ermöglichen, um hierarchische räumlich-zeitliche Abhängigkeiten und strukturelle Informationen zu erfassen. Durch die gemeinsame Durchführung der beiden Konvolutionen findet CTL effektiv umfassende Hinweise, die ergänzend zum Erscheinungsbild sind, um die repräsentative Kapazität zu verbessern. Ausführliche Experimente an zwei Videobenchmarks haben die Effektivität der vorgeschlagenen Methode und ihre Spitzenleistung im Vergleich mit dem Stand der Technik nachgewiesen.