Großskaliges Vortraining für die Person-Identifizierung mit verrauschten Etiketten

Diese Arbeit zielt darauf ab, das Problem der Vortrainierung für Person-Identifikation (Re-ID) mit verrauschten Etiketten anzugehen. Um die Vortrainierungsaufgabe einzurichten, wenden wir ein einfaches Online-Mehrobject-Tracking-System auf die Rohvideos eines bestehenden unlabeled Re-ID-Datensatzes namens „LUPerson“ an und erstellen die verrauschte Etikettenversion „LUPerson-NL“. Da diese ID-Etiketten, die automatisch aus Tracklets abgeleitet werden, zwangsläufig Rauschen enthalten, entwickeln wir einen großskaligen Vortrainierungsrahmen, der verrauschte Etiketten nutzt (PNL), der aus drei Lernmodulen besteht: überwachtem Re-ID-Lernen, prototypenbasiertem kontrastivem Lernen und labelgesteuertem kontrastivem Lernen. Im Prinzip ermöglicht die gemeinsame Lernung dieser drei Module nicht nur die Gruppierung ähnlicher Beispiele um einen gemeinsamen Prototypen, sondern korrigiert auch die verrauschten Etiketten basierend auf der Zuordnung zu Prototypen. Wir zeigen, dass das direkte Lernen aus Rohvideos eine vielversprechende Alternative für die Vortrainierung darstellt, die räumliche und zeitliche Korrelationen als schwache Aufsicht nutzt. Diese einfache Vortrainierungsaufgabe bietet eine skalierbare Möglichkeit, SOTA-Re-ID-Repräsentationen von Grund auf auf „LUPerson-NL“ zu lernen, ohne auf komplexe Zusatzmechanismen zurückgreifen zu müssen. Zum Beispiel verbessert unser vortrainiertes Modell, angewandt auf dieselbe überwachte Re-ID-Methode MGN, die mAP gegenüber der unsupervisierten Vortrainierungsvariante um 5,7 %, 2,2 % und 2,3 % auf CUHK03, DukeMTMC und MSMT17 jeweils. Unter kleinen Datensätzen oder Few-Shot-Szenarien ist der Leistungszuwachs noch deutlicher, was auf eine bessere Übertragbarkeit der gelernten Repräsentation hinweist. Der Quellcode ist unter https://github.com/DengpanFu/LUPerson-NL verfügbar.