Erkundung feingranulärer Darstellung und Neukomposition für die Personen-Wiedererkennung bei Kleiderwechsel

Die Personenwiedererkennung bei Kleiderwechsel (Re-ID) ist eine besonders herausfordernde Aufgabe, die unter zwei Einschränkungen leidet: mangelhaften diskriminativen Merkmalen und begrenzten Trainingsdatensätzen. Bestehende Methoden nutzen hauptsächlich zusätzliche Informationen, um die Lernung von identitätsrelevanten Merkmalen zu erleichtern. Dazu gehören soft-biometrische Merkmale wie Körperbau oder Gangart sowie zusätzliche Etiketten für Kleidung. Diese Informationen sind jedoch in realen Anwendungen möglicherweise nicht verfügbar. In dieser Arbeit schlagen wir einen neuen Ansatz vor, den FIne-grained Representation and Recomposition (FIRe$^{2}$)-Framework, der beide Einschränkungen ohne jegliche zusätzliche Annotation oder Daten bewältigt. Insbesondere entwickeln wir zunächst ein Modul zur feingranularen Merkmalsextraktion (Fine-grained Feature Mining, FFM), das die Bilder jeder Person getrennt clustert. Bilder mit ähnlichen sogenannten feingranularen Attributen (z.B. Kleidung und Betrachtungswinkel) werden ermutigt, zusammengefasst zu werden. Eine attributbasierte Klassifikationsverlustfunktion wird eingeführt, um auf Basis der Clusterlabels feingranulares Lernen durchzuführen. Diese Labels werden nicht zwischen verschiedenen Personen geteilt und fördern das Lernen von identitätsrelevanten Merkmalen durch das Modell. Darüber hinaus, um den Nutzen der feingranularen Attribute voll auszuschöpfen, stellen wir ein Modul zur feingranularen Attributrekomposition (Fine-grained Attribute Recomposition, FAR) vor, das Bildmerkmale im latenten Raum mit verschiedenen Attributen neu komponiert. Dies verbessert die robuste Merkmalslernung erheblich. Ausführliche Experimente zeigen, dass FIRe$^{2}$ auf fünf weit verbreiteten Benchmarks für Personenwiedererkennung bei Kleiderwechsel den Stand der Technik übertreffen kann. Der Code ist unter https://github.com/QizaoWang/FIRe-CCReID verfügbar.