Schrittweise Metrikförderung für unsupervisiertes Video-Person-Re-Identification

Die hohen Kosten für die annotierte Daten und die reichhaltigen, jedoch unbeschrifteten Informationen in Videos motivieren uns, einen unsupervisierten Ansatz für die personenbasierte Re-Identifikation (re-ID) auf Basis von Videos vorzuschlagen. Wir gehen von zwei Annahmen aus: 1) Verschiedene Video-Tracklets enthalten typischerweise verschiedene Personen, insbesondere wenn die Tracklets an unterschiedlichen Orten oder mit langen zeitlichen Abständen aufgenommen wurden; 2) Innerhalb jedes Tracklets stammen die Frames überwiegend von derselben Person. Auf Basis dieser Annahmen präsentieren wir einen schrittweisen Ansatz zur Verbesserung der Ähnlichkeitsmetrik, um die Identitäten der Trainings-Tracklets zu schätzen, wobei iterativ zwischen der Zuordnung von Tracklets über verschiedene Kameras und dem Lernen von Merkmalen gewechselt wird. Konkret verwenden wir jedes Trainings-Tracklet als Abfrage und führen eine Recherche im gesamten, über Kameras verteilten Trainingsdatensatz durch. Unser Verfahren basiert auf der Suche nach gegenseitigen nächsten Nachbarn und ermöglicht die Eliminierung von schweren negativen Label-Zuordnungen, d. h. jener Kreuzkamera-Nachbarn, die in der ursprünglichen Rangliste falsche Übereinstimmungen darstellen. Ein Tracklet, das die Bedingung der gegenseitigen nächsten Nachbarn erfüllt, wird als identisch mit der Abfrage betrachtet. Experimentelle Ergebnisse auf den Datensätzen PRID 2011, ILIDS-VID und MARS zeigen, dass der vorgeschlagene Ansatz eine sehr wettbewerbsfähige Re-ID-Genauigkeit erreicht, die vergleichbar ist mit jener von überwachten Methoden.