Aggregieren tiefer pyramidaler Darstellungen für die Person Re-Identifikation

Die Entwicklung diskriminativer, sichtungsunabhängiger und mehrskaliger Darstellungen der menschlichen Erscheinung auf verschiedenen semantischen Ebenen ist von entscheidender Bedeutung für die Personenwiedererkennung (Person Re-Identification, Re-ID). Die Forschungsgemeinschaft hat erhebliche Anstrengungen unternommen, um tiefe Re-ID-Modelle zu entwickeln, die eine ganzheitliche, einheitliche semantische Merkmalsrepräsentation erfassen. Um die Leistung zu verbessern, wurden zusätzliche visuelle Attribute und körperpartitionsbasierte Modelle berücksichtigt. Diese Ansätze erfordern jedoch umfangreiche menschliche Annotation oder erhebliche zusätzliche Rechenleistung. Wir argumentieren, dass ein pyramideninspirierter Ansatz, der mehrskalige Informationen erfasst, diese Anforderungen überwinden könnte. Genauer gesagt können mehrskalige Streifen, die visuelle Informationen einer Person darstellen, durch eine neuartige Architektur in latent diskriminative Faktoren auf mehreren semantischen Ebenen faktorisiert werden. Eine mehrzielige Verlustfunktion wird mit einer Curriculum-Lernstrategie kombiniert, um eine diskriminative und sichtungsunabhängige Darstellung der Person zu lernen, die anschließend für Triplet-Similaritätslernen genutzt wird. Ergebnisse auf drei Standardbenchmarks für Re-ID zeigen, dass die vorgeschlagene Methode eine bessere Leistung als bestehende Verfahren erzielt (beispielsweise über 90 % Genauigkeit auf dem Duke-MTMC-Datensatz).