Teil-alingierte bilineare Darstellungen für die Wiedererkennung von Personen

Wir schlagen ein neues Netzwerk vor, das eine teilalignierte Darstellung für die Person-Wiedererkennung lernt. Es behandelt das Problem der Fehlalignierung von Körperteilen, das heißt, Körperteile sind aufgrund von Pose- und Blickwinkeländerungen sowie unzuverlässiger Detektion in menschlichen Erkennungen fehlaligniert. Unser Modell besteht aus einem Zweistrom-Netzwerk (ein Strom zur Extraktion von Erscheinungsmerkmalskarten und der andere zum Extrahieren von Körperteilkarten) und einer bilinearen Pooling-Schicht, die eine teilalignierte Karte generiert und räumlich poolt. Jedes lokale Merkmal der teilalignierten Karte wird durch eine bilineare Abbildung der entsprechenden lokalen Erscheinungs- und Körperteilbeschreibungen erzeugt. Unsere neue Darstellung führt zu einer robusten Bildübereinstimmungssimilarität, die äquivalent ist zu einer Aggregation der lokalen Similaritäten der entsprechenden Körperteile in Verbindung mit der gewichteten Erscheinungssimilarität. Diese teilalignierte Darstellung reduziert das Problem der Fehlalignierung von Teilen erheblich. Unser Ansatz ist auch vorteilhaft im Vergleich zu anderen posegesteuerten Darstellungen (z.B. dem Extrahieren von Darstellungen über den Begrenzungsrahmen jedes Körperteils), da er optimale Teilbeschreibungen für die Person-Wiedererkennung lernt. Für das Training des Netzwerks erfordert unser Ansatz keine Teilannotierungen im Datensatz für die Person-Wiedererkennung. Stattdessen initialisieren wir den Teilunterstrom einfach mit einem vorab trainierten Unter-Netzwerk eines bestehenden Pose-Schätznetzwerks und trainieren das gesamte Netzwerk, um den Wiedererkennungsverlust zu minimieren. Wir überprüfen die Effektivität unseres Ansatzes, indem wir seine Überlegenheit gegenüber den Stand-of-the-Art-Methoden auf Standard-Benchmark-Datensätzen wie Market-1501, CUHK03, CUHK01 und DukeMTMC sowie dem Standard-Videodatensatz MARS demonstrieren.