Interpretierbare und verallgemeinerbare Person-Wiedererkennung mit abfrageadaptiver Faltung und zeitlicher Hebung

Für die Person-Wiedererkennung (Person Re-Identification) konzentrieren sich existierende Tiefennetze oft auf das Lernen von Darstellungen (Representation Learning). Allerdings ist ohne Transfer-Lernen das gelernte Modell festgelegt und nicht anpassungsfähig für verschiedene unbekannte Szenarien. In dieser Arbeit gehen wir über das Lernen von Darstellungen hinaus und betrachten, wie man die direkte Formulierung des Personbild-Matchings in tiefen Merkmalskarten (Deep Feature Maps) erreichen kann. Wir behandeln das Bild-Matching als das Finden lokaler Korrespondenzen in Merkmalskarten und bauen abfrageadaptive Faltungskerne (Query-Adaptive Convolution Kernels) zur Laufzeit, um lokale Übereinstimmungen zu erzielen. Auf diese Weise sind der Matching-Prozess und die Ergebnisse interpretierbar, und dieses explizite Matching ist allgemeiner anwendbar als Darstellungsmerkmale auf unbekannte Szenarien, wie z.B. unbekannte Verschiebungen, Pose- oder Blickrichtungsänderungen.Um eine end-to-end-Ausbildung dieser Architektur zu erleichtern, bauen wir ferner ein Klassen-Speichermodul (Class Memory Module), um die Merkmalskarten der neuesten Proben jeder Klasse zu zwischenspeichern. Dies ermöglicht es uns, Bild-Matching-Verluste für metrisches Lernen zu berechnen. Durch direkte Kreuzdatensatz-Evaluierung zeigt die vorgeschlagene Methode des abfrageadaptiven Faltens (Query-Adaptive Convolution, QAConv) erhebliche Verbesserungen im Vergleich zu populären Lernmethoden (ca. 10%+ mAP) und erreicht vergleichbare Ergebnisse mit vielen Transfer-Lernmethoden. Zudem wird eine modellfreie zeitliche Co-Occurrence-basierte Bewertungsgewichtungsmethode namens TLift vorgeschlagen, die die Leistung weiter verbessert und den Stand der Technik in der Kreuzdatensatz-Person-Wiedererkennung erreicht.Der Quellcode ist unter https://github.com/ShengcaiLiao/QAConv verfügbar.