HyperAIHyperAI
vor 2 Monaten

Kontextbezogene Nicht-Lokale Ausrichtung über eine Gesamtdarstellung für die textbasierte Personensuche

Gao, Chenyang ; Cai, Guanyu ; Jiang, Xinyang ; Zheng, Feng ; Zhang, Jun ; Gong, Yifei ; Peng, Pai ; Guo, Xiaowei ; Sun, Xing
Kontextbezogene Nicht-Lokale Ausrichtung über eine Gesamtdarstellung für die textbasierte Personensuche
Abstract

Textbasierte Personensuche zielt darauf ab, eine Zielperson in einer Bildgalerie mithilfe eines beschreibenden Satzes dieser Person zu finden. Dies ist sehr herausfordernd, da die Modalitätslücke die effektive Extraktion diskriminativer Merkmale erschwert. Darüber hinaus ist die Varianz zwischen den Klassen sowohl bei Fußgängerbildern als auch bei Beschreibungen gering. Daher sind umfassende Informationen erforderlich, um visuelle und textuelle Hinweise auf allen Skalen auszurichten. Die meisten existierenden Methoden berücksichtigen lediglich die lokale Ausrichtung zwischen Bildern und Texten innerhalb einer einzelnen Skala (z.B. nur globale Skala oder nur partielle Skala) und bauen dann die Ausrichtung auf jeder Skala getrennt voneinander auf. Um dieses Problem zu lösen, schlagen wir eine Methode vor, die in der Lage ist, Bild- und textuelle Merkmale adaptiv über alle Skalen auszurichten. Diese Methode wird als NAFS (Non-local Alignment over Full-Scale representations) bezeichnet. Erstens wird eine neuartige Treppenstruktur vorgeschlagen, um vollständige Bildmerkmale mit besserer Lokalität zu extrahieren. Zweitens wird ein BERT mit lokalitätsbeschränkter Aufmerksamkeit vorgeschlagen, um Darstellungen von Beschreibungen auf verschiedenen Skalen zu erhalten. Anschließend wird anstelle der getrennten Ausrichtung von Merkmalen auf jeder Skala ein neuer kontextueller nicht-lokaler Aufmerksamkeitsmechanismus angewendet, um gleichzeitig latente Ausrichtungen über alle Skalen zu entdecken. Die experimentellen Ergebnisse zeigen, dass unsere Methode in Bezug auf Top-1 und Top-5 auf dem Datensatz für textbasierte Personensuche den Stand der Technik um 5,53 % und 5,35 % übertreffen kann. Der Code ist unter https://github.com/TencentYoutuResearch/PersonReID-NAFS verfügbar.