Batch DropBlock Netzwerk für Personen-Wiedererkennung und darüber hinaus

Da die Person-Wiedererkennungsaufgabe oft mit den Problemen von Körperhaltungsänderungen und Verdeckungen konfrontiert ist, werden einige aufmerksamkeitsbasierte lokale Merkmale bei der Schulung von CNNs häufig unterdrückt. In dieser Arbeit schlagen wir das Batch DropBlock (BDB)-Netzwerk vor, welches ein Zweig-Netzwerk besteht, das aus einem konventionellen ResNet-50 als globaler Ast und einem Feature-Drop-Ast zusammengesetzt ist. Der globale Ast kodiert die globalen auffälligen Repräsentationen. Gleichzeitig besteht der Feature-Drop-Ast aus einem aufmerksamkeitsbasierten Merkmalslernmodul namens Batch DropBlock, das dieselbe Region aller Eingabe-Featuremaps in einem Batch zufällig entfernt, um das Lernen von aufmerksamkeitsbasierten Merkmalen in lokalen Regionen zu verstärken. Das Netzwerk fügt dann die Merkmale aus beiden Ästen zusammen und bietet eine umfassendere und räumlich verteiltere Merkmalsrepräsentation. Trotz seiner Einfachheit erreicht unsere Methode den aktuellen Stand der Technik in der Person-Wiedererkennung und sie ist auch für allgemeine Metrik-Lernaufgaben anwendbar. Zum Beispiel erzielen wir eine Rang-1-Genauigkeit von 76,4 % im CUHK03-Detect-Datensatz und einen Recall-1-Score von 83,0 % im Stanford Online Products Datensatz, was bestehende Arbeiten um einen großen Vorsprung (mehr als 6 %) übertrifft.