Multi-directional und Multi-scale Pyramid im Transformer für die videobasierte Fußgängerabfrage

Bei der Videoüberwachung stellt die Personenretrieval-Aufgabe (auch Person Re-Identification genannt) eine zentrale Herausforderung dar. Ziel dieser Aufgabe ist es, eine bestimmte Person aus nicht überlappenden Kameras zu identifizieren und wiederzufinden. In jüngster Zeit haben transformerbasierte Modelle erhebliche Fortschritte auf diesem Gebiet erzielt. Dennoch leiden diese Modelle weiterhin unter der Vernachlässigung fein granularer, teilinformierter Informationen. In dieser Arbeit wird ein mehrdimensionaler und mehrskaliger Pyramiden-Transformer (PiT) vorgeschlagen, um dieses Problem zu lösen. In transformerbasierten Architekturen wird jedes Personenbild in mehrere Patch-Teile zerlegt. Diese Patches werden dann an die Transformer-Schichten weitergeleitet, um die Merkmalsdarstellung des Bildes zu erzeugen. Um fein granulare Informationen zu erfassen, wird in dieser Arbeit vorgeschlagen, die Patches sowohl vertikal als auch horizontal zu unterteilen, um unterschiedliche, richtungsabhängige menschliche Körperabschnitte zu generieren. Diese Abschnitte liefern eine reichhaltigere fein granulare Information. Zur Fusion mehrskaliger Merkmalsdarstellungen wird eine Pyramidenstruktur vorgestellt, die sowohl globale Informationen als auch mehrere lokale Informationen unterschiedlicher Skalen enthält. Die Merkmalspyramiden aller Personenbilder aus derselben Video-Sequenz werden zusammengeführt, um die endgültige mehrdimensionale und mehrskalige Merkmalsdarstellung zu erzeugen. Experimentelle Ergebnisse auf zwei anspruchsvollen, videobasierten Benchmark-Datensätzen, MARS und iLIDS-VID, zeigen, dass der vorgeschlagene PiT-Transformer die derzeit beste Leistung erzielt. Umfassende Ablationstudien belegen die Überlegenheit der vorgeschlagenen Pyramidenstruktur. Der Quellcode ist unter https://git.openi.org.cn/zangxh/PiT.git verfügbar.