HyperAIHyperAI

Command Palette

Search for a command to run...

Kontextbezogene Nicht-Lokale Ausrichtung über eine Gesamtdarstellung für die textbasierte Personensuche

Chenyang Gao extsuperscript1,*, Guanyu Cai extsuperscript2, Xinyang Jiang extsuperscript2,†, Feng Zheng extsuperscript1, Jun Zhang extsuperscript2, Yifei Gong extsuperscript2, Pai Peng extsuperscript2, Xiaowei Guo extsuperscript2, Xing Sun extsuperscript2

Zusammenfassung

Textbasierte Personensuche zielt darauf ab, eine Zielperson in einer Bildgalerie mithilfe eines beschreibenden Satzes dieser Person zu finden. Dies ist sehr herausfordernd, da die Modalitätslücke die effektive Extraktion diskriminativer Merkmale erschwert. Darüber hinaus ist die Varianz zwischen den Klassen sowohl bei Fußgängerbildern als auch bei Beschreibungen gering. Daher sind umfassende Informationen erforderlich, um visuelle und textuelle Hinweise auf allen Skalen auszurichten. Die meisten existierenden Methoden berücksichtigen lediglich die lokale Ausrichtung zwischen Bildern und Texten innerhalb einer einzelnen Skala (z.B. nur globale Skala oder nur partielle Skala) und bauen dann die Ausrichtung auf jeder Skala getrennt voneinander auf. Um dieses Problem zu lösen, schlagen wir eine Methode vor, die in der Lage ist, Bild- und textuelle Merkmale adaptiv über alle Skalen auszurichten. Diese Methode wird als NAFS (Non-local Alignment over Full-Scale representations) bezeichnet. Erstens wird eine neuartige Treppenstruktur vorgeschlagen, um vollständige Bildmerkmale mit besserer Lokalität zu extrahieren. Zweitens wird ein BERT mit lokalitätsbeschränkter Aufmerksamkeit vorgeschlagen, um Darstellungen von Beschreibungen auf verschiedenen Skalen zu erhalten. Anschließend wird anstelle der getrennten Ausrichtung von Merkmalen auf jeder Skala ein neuer kontextueller nicht-lokaler Aufmerksamkeitsmechanismus angewendet, um gleichzeitig latente Ausrichtungen über alle Skalen zu entdecken. Die experimentellen Ergebnisse zeigen, dass unsere Methode in Bezug auf Top-1 und Top-5 auf dem Datensatz für textbasierte Personensuche den Stand der Technik um 5,53 % und 5,35 % übertreffen kann. Der Code ist unter https://github.com/TencentYoutuResearch/PersonReID-NAFS verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp