Personen-Wiedererkennung bei Kleiderwechseln nur mit RGB-Modalität

Der Schlüssel zur Identifikation von Personen (Re-ID) bei Wechsel der Kleidung besteht darin, Kleiderunabhängige Merkmale zu extrahieren, wie zum Beispiel das Gesicht, die Frisur, die Körpergestalt und den Gang. Die meisten aktuellen Arbeiten konzentrieren sich hauptsächlich darauf, die Körpergestalt aus multimodalen Informationen (z.B. Silhouetten und Skizzen) zu modellieren, nutzen aber nicht vollständig die Kleiderunabhängigen Informationen in den ursprünglichen RGB-Bildern. In dieser Arbeit schlagen wir eine Kleiderbasierte Adversarische Verlustfunktion (Clothes-based Adversarial Loss, CAL) vor, um Kleiderunabhängige Merkmale aus den ursprünglichen RGB-Bildern durch die Bestrafung der Vorhersagekraft des Re-ID-Modells bezüglich der Kleidung zu gewinnen. Umfangreiche Experimente zeigen, dass CAL alle bislang besten Methoden auf weit verbreiteten Benchmarks für die Identifikation von Personen bei Wechsel der Kleidung übertrifft, wenn ausschließlich RGB-Bilder verwendet werden. Darüber hinaus enthalten Videos im Vergleich zu Bildern reichere Erscheinungsmerkmale und zusätzliche zeitliche Informationen, die genutzt werden können, um geeignete räumlich-zeitliche Muster zu modellieren und so die Identifikation von Personen bei Wechsel der Kleidung zu unterstützen. Da es bisher keine öffentlich verfügbare Video-Datensammlung für die Identifikation von Personen bei Wechsel der Kleidung gibt, stellen wir einen neuen Datensatz namens CCVID zur Verfügung und zeigen, dass es noch viel Verbesserungspotential gibt, um räumlich-zeitliche Informationen zu modellieren. Der Code und der neue Datensatz sind unter folgender URL verfügbar: https://github.com/guxinqian/Simple-CCReID.