HyperAIHyperAI
vor 18 Tagen

Attribut-De-biased Vision Transformer (AD-ViT) für die Langzeit-Personen-Wiedererkennung

{and Venu Govindaraju, Srirangaraj Setlur, Deen Mohan, Bhavin Jawade, Kyung Won Lee}
Abstract

Person Re-Identification (Re-ID) zielt darauf ab, Bilder derselben Identität aus einer Galerie von Personenaufnahmen über verschiedene Kameras und Blickwinkel hinweg zu retrieven. Allerdings gehen die meisten Ansätze in der Person Re-ID von einem kurzfristigen Szenario aus, das durch Invarianz im Erscheinungsbild gekennzeichnet ist. Im Gegensatz dazu tritt in einem langfristigen Szenario häufig eine hohe visuelle Variabilität aufgrund von Veränderungen in Kleidung und Accessoires auf, was die Aufgabe herausfordernder macht. Daher ist es entscheidend, identitätsbezogene Merkmale zu lernen, die unabhängig von zeitlich variierenden Merkmalen sind, um eine robuste langfristige Person Re-ID zu gewährleisten. Hierzu schlagen wir einen Attribute De-biased Vision Transformer (AD-ViT) vor, der eine direkte Supervision ermöglicht, um identitätsbezogene Merkmale zu lernen. Konkret generieren wir Attributlabels für Personenausprägungen und nutzen diese, um unser Modell über Gradient Reversal dazu zu führen, sich auf identitätsrelevante Merkmale zu konzentrieren. Unsere Experimente auf zwei langfristigen Re-ID-Datensätzen – LTCC und NKUP – zeigen, dass der vorgeschlagene Ansatz konsistent die derzeitigen State-of-the-Art-Methoden übertrifft.