Dichte Interaktionslernverfahren für die personenbasierte Re-identifikation auf Basis von Videos

Video-basierte Personen-Identifizierung (re-ID) zielt darauf ab, dieselbe Person über verschiedene Videoclips hinweg zu identifizieren. Die effiziente Nutzung von mehrskaligen, feinkörnigen Merkmalen unter gleichzeitiger Aufbau struktureller Wechselwirkungen zwischen ihnen ist entscheidend für den Erfolg dieser Aufgabe. In diesem Artikel stellen wir einen hybriden Ansatz namens Dense Interaction Learning (DenseIL) vor, der die wesentlichen Vorteile sowohl von CNN-basierten als auch von Attention-basierten Architekturen nutzt, um die Herausforderungen der video-basierten Personen-Identifizierung zu bewältigen. DenseIL besteht aus einem CNN-Encoder und einem Dense Interaction (DI)-Decoder. Der CNN-Encoder ist dafür verantwortlich, diskriminative räumliche Merkmale effizient zu extrahieren, während der DI-Decoder speziell entworfen wurde, um dicht die räumlich-zeitlichen inhärenten Wechselwirkungen über Frames hinweg zu modellieren. Im Gegensatz zu früheren Ansätzen lassen wir den DI-Decoder zusätzlich dicht auf intermediäre, feinkörnige CNN-Merkmale achten, was natürlicherweise mehrskalige, räumlich-zeitliche Repräsentationen für jeden Videoclip erzeugt. Zudem führen wir eine räumlich-zeitliche Positionsembedding (Spatio-TEmporal Positional Embedding, STEP-Emb) in den DI-Decoder ein, um die räumlich-zeitliche Positionsbeziehung der Eingabedaten zu untersuchen. Unsere Experimente zeigen konsistent und signifikant bessere Ergebnisse als alle aktuellen State-of-the-Art-Methoden auf mehreren Standard-Datenbanken für video-basierte Personen-Identifizierung.