HyperAIHyperAI
vor 15 Tagen

Spatio-temporale Darstellungsfaktorisierung für die personenbasierte Re-Identifikation auf Basis von Videos

Abhishek Aich, Meng Zheng, Srikrishna Karanam, Terrence Chen, Amit K. Roy-Chowdhury, Ziyan Wu
Spatio-temporale Darstellungsfaktorisierung für die personenbasierte Re-Identifikation auf Basis von Videos
Abstract

Trotz erheblicher jüngster Fortschritte im Bereich der videobasierten Personen-Identifizierung (re-ID) leidet die derzeitige State-of-the-Art noch unter typischen Herausforderungen der realen Welt, wie beispielsweise geringer optischer Unterscheidbarkeit zwischen verschiedenen Personen, Verdeckungen (Occlusions) und Frame-Misalignment. Um diese Probleme zu mildern, schlagen wir Spatio-Temporal Representation Factorization (STRF) vor – eine flexible neue rechnerische Einheit, die nahtlos mit den meisten bestehenden 3D-Faltungsneuralnetzarchitekturen für re-ID integriert werden kann. Die zentralen Innovationen von STRF gegenüber vorherigen Ansätzen liegen in expliziten Pfaden zur Lernung diskriminativer zeitlicher und räumlicher Merkmale, wobei jeweils jeder Komponente eine zusätzliche Faktorisierung zugeordnet ist, um komplementäre, personenspezifische Erscheinungs- und Bewegungsinformationen zu erfassen. Insbesondere umfasst die zeitliche Faktorisierung zwei Zweige: einen für statische Merkmale (z. B. Kleidungsfarbe), die sich über die Zeit kaum verändern, und einen für dynamische Merkmale (z. B. Gangmuster), die sich im Laufe der Zeit ändern. Darüber hinaus enthält die räumliche Faktorisierung ebenfalls zwei Zweige, um sowohl globale (grobe Segmente) als auch lokale (feinere Segmente) Erscheinungsmerkmale zu lernen, wobei die lokalen Merkmale besonders nützlich sind bei Verdeckungen oder räumlichen Ungenauigkeiten. Die Kombination dieser beiden Faktorisierungsoperationen führt zu einer modularen Architektur für unsere parameterarmen STRF-Einheiten, die zwischen beliebige zwei 3D-Faltungs-Schichten integriert werden können und somit ein end-to-end Lernframework ermöglicht. Wir zeigen empirisch, dass STRF die Leistung verschiedener bestehender Baseline-Architekturen verbessert und gleichzeitig neue State-of-the-Art-Ergebnisse unter Verwendung standardisierter Evaluationsschemata für Personen-Identifizierung auf drei Benchmark-Datensätzen erzielt.

Spatio-temporale Darstellungsfaktorisierung für die personenbasierte Re-Identifikation auf Basis von Videos | Neueste Forschungsarbeiten | HyperAI