Graph-basiertes tiefes Metriklernen für generalisierbare Person-Wiedererkennung

Neueste Studien zeigen, dass sowohl explizites tiefes Merkmalsabgleichen als auch groß angelegte und vielfältige Trainingsdaten die Generalisierung der Person-Wiedererkennung erheblich verbessern können. Allerdings wurde die Effizienz des Lernens von tiefen Abgleichern auf großen Datenmengen bisher noch nicht ausreichend untersucht. Obwohl das Lernen mit Klassifikationsparametern oder Klassenmemory eine gängige Methode ist, verursacht es hohe Speicher- und Rechenkosten. Im Gegensatz dazu wäre das paarweise tiefe Metriklernen innerhalb von Minibatches eine bessere Wahl. Dennoch ist die am häufigsten verwendete Zufallsauswahlmethode, der bekannte PK-Sampler, für das tiefe Metriklernen weder informativ noch effizient. Obwohl Online-Hard-Example-Mining die Lerneffizienz in gewissem Maße verbessert hat, bleibt das Mining in Minibatches nach Zufallsauswahl begrenzt. Dies motiviert uns, den Einsatz von Hard-Example-Mining früher, bereits im Datenauswahlschritt, zu erforschen.In diesem Paper schlagen wir daher eine effiziente Minibatch-Auswahlmethode vor, die Graph-Sampling (GS) genannt wird, für groß angelegtes tiefes Metriklernen. Die grundlegende Idee besteht darin, am Anfang jeder Epoche einen nächsten-Nachbarn-Beziehungsgraphen für alle Klassen zu erstellen. Dann setzt sich jeder Minibatch aus einer zufällig ausgewählten Klasse und ihren nächstgelegenen Nachbarklassen zusammen, um informative und herausfordernde Beispiele für das Lernen bereitzustellen. Zusammen mit einem angepassten Wettbewerbsbaseline verbessern wir den Stand der Technik in der generalisierbaren Person-Wiedererkennung erheblich: Um 25,1 % im Rang-1 auf MSMT17 bei Training auf RandPerson. Darüber hinaus übertrifft die vorgeschlagene Methode den Wettbewerbsbaseline auch auf CUHK03-NP um 6,8 % im Rang-1 bei Training auf MSMT17. Gleichzeitig wird die Trainingszeit erheblich reduziert: Von 25,4 Stunden auf 2 Stunden bei Training auf RandPerson mit 8.000 Identitäten. Der Quellcode ist unter https://github.com/ShengcaiLiao/QAConv verfügbar.