Personen-Wiedererkennung aus der Perspektive der Projektion-auf-Prototypen neu überdenken

Die Person Re-Identifikation (Re-ID) als Retrieval-Aufgabe hat in den letzten zehn Jahren enorme Fortschritte gemacht. Bestehende Methoden, die den aktuellen Stand der Technik darstellen, folgen einem analogen Rahmen, um zunächst Merkmale aus den Eingabebildern zu extrahieren und diese anschließend mit einem Klassifizierer zu kategorisieren. Da jedoch keine Identitätsüberschneidungen zwischen Trainings- und Testdatensätzen bestehen, wird der Klassifizierer während der Inferenz oft verworfen. Nur die extrahierten Merkmale werden für die Personen-Retrieval mittels Distanzmetriken verwendet. In dieser Arbeit überdenken wir die Rolle des Klassifizierers in der Person Re-ID und plädieren für eine neue Perspektive, bei der der Klassifizierer als Projektion von Bildmerkmalen auf Klasseprototypen betrachtet wird. Diese Prototypen sind genau die gelernten Parameter des Klassifizierers. Aus dieser Sicht beschreiben wir die Identität der Eingabebilder durch Ähnlichkeiten zu allen Prototypen, die dann als diskriminativere Merkmale zur Durchführung der Person Re-ID genutzt werden. Wir schlagen daher eine neue Baseline-Prozedur ProNet vor, die innovativ die Funktion des Klassifizierers während der Inferenz beibehält. Um das Lernen von Klasseprototypen zu erleichtern, werden sowohl Triplettenverlust als auch Identitätsklassifikationsverlust auf Merkmale angewendet, die durch den Klassifizierer projiziert werden. Eine verbesserte Version von ProNet++, die zusätzliche Multi-Granularitätsdesigns einbezieht, wird vorgestellt. Experimente an vier Benchmarks zeigen, dass unser vorgeschlagener ProNet einfach und effektiv ist und signifikant frühere Baselines übertrifft. ProNet++ erzielt auch wettbewerbsfähige oder sogar bessere Ergebnisse als transformerbasierte Konkurrenten.