HyperAIHyperAI
vor 16 Tagen

Selbstüberwachtes Vor-Training für Transformer-basierte Person Re-Identifikation

Hao Luo, Pichao Wang, Yi Xu, Feng Ding, Yanxin Zhou, Fan Wang, Hao Li, Rong Jin
Selbstüberwachtes Vor-Training für Transformer-basierte Person Re-Identifikation
Abstract

Transformer-basierte überwachte Vortrainingsansätze erreichen hervorragende Leistung in der Personenreidentifikation (ReID). Aufgrund der Domänenlücke zwischen den Datensätzen ImageNet und ReID muss jedoch in der Regel ein größerer Vortrainingsdatensatz (z. B. ImageNet-21K) verwendet werden, um die Leistung zu steigern, da der Transformer über eine starke Anpassungsfähigkeit an Daten verfügt. Um dieser Herausforderung zu begegnen, zielt diese Arbeit darauf ab, die Domänenlücke zwischen Vortrainings- und ReID-Datensätzen jeweils aus der Perspektive von Daten und Modellarchitektur zu verringern. Zunächst untersuchen wir selbstüberwachte Lernmethoden (SSL) mit Vision Transformer (ViT), die auf unbeschrifteten Personenbildern (dem LUPerson-Datensatz) vortrainiert wurden, und stellen empirisch fest, dass diese Ansätze ReID-Aufgaben signifikant überlegen sind gegenüber Modellen, die auf ImageNet überwacht vortrainiert wurden. Um die Domänenlücke weiter zu verringern und das Vortrainingsverfahren zu beschleunigen, wird der sogenannte „Catastrophic Forgetting Score“ (CFS) eingeführt, um die Diskrepanz zwischen Vortrainings- und Feintuning-Daten zu bewerten. Basierend auf dem CFS wird eine Teilmenge aus dem Vortrainingsdatensatz durch Sampling von datenrelevanten Beispielen, die der Downstream-ReID-Daten nahe liegen, und Filterung irrelevanten Materials ausgewählt. Hinsichtlich der Modellarchitektur wird ein ReID-spezifisches Modul namens IBN-basierte Convolution-Stem (ICS) vorgeschlagen, das die Domänenlücke durch das Lernen von invarianten Merkmalen verringert. Umfassende Experimente wurden durchgeführt, um die Vortrainingsmodelle unter überwachten Lernbedingungen, unsupervisierter Domänenanpassung (UDA) und unsupervisiertem Lernen (USL) zu feintunen. Wir gelangen erfolgreich dazu, den LUPerson-Datensatz auf 50 % seiner ursprünglichen Größe zu verkleinern, ohne dabei eine Leistungseinbuße zu verzeichnen. Schließlich erreichen wir state-of-the-art-Leistung auf den Datensätzen Market-1501 und MSMT17. Beispielsweise erzielt unser ViT-S/16 eine mAP-Genauigkeit von 91,3 %/89,9 %/89,6 % auf Market1501 für überwachtes/UDA/USL-ReID. Der Quellcode und die Modelle werden unter https://github.com/michuanhaohao/TransReID-SSL veröffentlicht.