Der Teufel steckt im Detail: Ausrichtung visueller Hinweise für bedingte Embeddings in der Personen-Wiedererkennung

Obwohl die Person Re-Identification (ReID) erhebliche Fortschritte erzielt hat, stellen weiterhin herausfordernde Fälle wie Verdeckung, Veränderung der Blickrichtung sowie ähnliche Kleidung erhebliche Schwierigkeiten dar. Neben globalen visuellen Merkmalen ist auch die Erfassung und Vergleichbarkeit detaillierter Informationen entscheidend, um diese Herausforderungen zu bewältigen. In diesem Paper werden zwei zentrale Erkennungsmuster vorgestellt, die eine bessere Nutzung der Detailinformationen von Personenbildern ermöglichen, wobei die meisten bestehenden Methoden hierin bisher unzureichend sind. Erstens erfordert das Visual Clue Alignment, dass das Modell entscheidende Regionenpaare aus zwei Bildern selektiert und ausrichtet, um eine paarweise Vergleichbarkeit zu ermöglichen; im Gegensatz dazu richten sich existierende Methoden lediglich nach vorgegebenen Regeln wie hoher Merkmalsähnlichkeit oder identischen semantischen Etiketten. Zweitens verlangt das Conditional Feature Embedding, dass das Gesamtmerkmal eines Abfragebildes dynamisch an das Galeriebild angepasst wird, mit dem es übereinstimmt – eine Berücksichtigung der Referenzbilder, die die meisten aktuellen Ansätze vernachlässigen. Durch die Einführung neuer Techniken wie des Correspondence-Attention-Moduls und eines auf Diskrepanz basierenden GCN (Graph Convolutional Network) entwickeln wir eine end-to-end-ReID-Methode, die beide Muster in einem einheitlichen Rahmen integriert und CACE-Net ((C)lue(A)lignment and (C)onditional (E)mbedding) genannt wird. Experimente zeigen, dass CACE-Net eine state-of-the-art-Leistung auf drei öffentlichen Datensätzen erzielt.