vor 7 Tagen

TransReID: Transformer-basierte Objekt-Wiederidentifikation

Shuting He, Hao Luo, Pichao Wang, Fan Wang, Hao Li, Wei Jiang

Abstract

Die Extraktion robuster Merkmalsrepräsentationen stellt eine zentrale Herausforderung bei der Objekt-Wiedererkennung (ReID) dar. Obwohl Methoden auf Basis von Faltungsneuronalen Netzen (CNN) erhebliche Erfolge erzielt haben, verarbeiten sie jeweils nur eine lokale Nachbarschaft gleichzeitig und leiden unter Informationsverlust bei feinen Details aufgrund von Faltung und Abtastungsoperatoren (z. B. Pooling und strided Convolution). Um diese Einschränkungen zu überwinden, stellen wir einen rein transformerbasierten Ansatz für die Objekt-ReID namens TransReID vor. Konkret kodieren wir zunächst ein Bild als eine Folge von Bildfragmenten (Patches) und entwickeln mit einigen kritischen Verbesserungen einen starken Transformer-basierten Baseline, der auf mehreren ReID-Benchmarks Ergebnisse erzielt, die mit CNN-basierten Methoden konkurrieren. Um die Robustheit des Merkmalslernens im Kontext von Transformers weiter zu steigern, werden zwei neuartige Module sorgfältig entworfen: (i) Das Jigsaw-Patch-Modul (JPM) ordnet die Patch-Embeddings durch Shift- und Patch-Shuffle-Operationen neu an, wodurch robuste Merkmale mit verbesserter Unterscheidungskraft und breiterer Abdeckung entstehen. (ii) Die Seiteninformations-Embeddings (SIE) werden eingeführt, um Merkmalsverzerrungen gegenüber Kamera-/Sichtvarianzen zu reduzieren, indem lernbare Embeddings integriert werden, um diese nicht-visuellen Hinweise einzubeziehen. Soweit uns bekannt ist, handelt es sich hierbei um die erste Arbeit, die einen reinen Transformer für die ReID-Forschung einsetzt. Die experimentellen Ergebnisse von TransReID sind überzeugend und erreichen state-of-the-art-Leistungen sowohl auf Person- als auch auf Fahrzeug-ReID-Benchmarks.