Transformer-basierte multi-granulare Merkmale für die unsupervised Person Re-Identification

Mehrschichtig extrahierte Merkmale aus konvolutionellen neuronalen Netzwerken (CNNs) haben ihre starke Unterscheidungsfähigkeit bei überwachten Aufgaben des Person-Re-Identification (Re-ID) gezeigt. Inspiriert durch diese Ergebnisse untersucht diese Arbeit, wie man aus einem reinen Transformer-Netzwerk mehrschichtige Merkmale extrahiert, um das unlabeled-Problem des unsupervised Re-ID zu lösen, das zwar keine Etiketten erfordert, jedoch deutlich herausfordernder ist. Dazu entwickeln wir eine dual-branch-Architektur auf Basis eines modifizierten Vision Transformers (ViT). Die lokalen Tokens, die in jeder Verzweigung ausgegeben werden, werden umgeformt und gleichmäßig in mehrere Streifen partitioniert, um part-level Merkmale zu generieren, während die globalen Tokens beider Verzweigungen gemittelt werden, um ein globales Merkmal zu erzeugen. Darüber hinaus definieren wir basierend auf O2CAP (offline-online associated camera-aware proxies), einer der derzeit leistungsstärksten Methoden im unsupervised Re-ID, sowohl offline- als auch online-contrastive Lernverluste bezüglich sowohl globaler als auch part-level Merkmale, um unsupervised-Lernen durchzuführen. Umfangreiche Experimente an drei Person-Re-ID-Datensätzen zeigen, dass die vorgeschlagene Methode state-of-the-art-Methoden im unsupervised Re-ID deutlich übertrifft und die Lücke zu überwachten Ansätzen erheblich verringert. Der Quellcode wird bald unter https://github.com/RikoLi/WACV23-workshop-TMGF verfügbar sein.