HyperAIHyperAI

Command Palette

Search for a command to run...

See Finer, See More: Implizite Modalitätsausrichtung für textbasierte Personensuche

Xiujun Shu Wei Wen Haoqian Wu Keyu Chen Yiran Song Ruizhi Qiao Bo Ren Xiao Wang

Zusammenfassung

Textbasierte Personensuche zielt darauf ab, eine Person auf Grundlage einer textuellen Beschreibung zu finden. Der Schlüssel besteht darin, einen gemeinsamen latenten Raum zwischen visueller und textueller Modalität zu erlernen. Um dieses Ziel zu erreichen, verwenden bestehende Arbeiten Segmentation, um explizite multimodale Ausrichtungen zu erhalten, oder nutzen Aufmerksamkeitstechniken, um auffällige Ausrichtungen zu erkunden. Diese Methoden haben zwei Nachteile: 1) Das Kennzeichnen von multimodal ausgerichteten Paaren ist zeitaufwendig. 2) Aufmerksamkeitsmethoden können auffällige multimodale Ausrichtungen erkunden, ignorieren aber möglicherweise einige subtile und wertvolle Paare.Um diese Probleme zu lindern, stellen wir ein implizites visuell-textuelles (IVT) Framework für die textbasierte Personensuche vor. Im Gegensatz zu früheren Modellen nutzt IVT ein einzelnes Netzwerk, um Darstellungen für beide Modalitäten zu erlernen, was zur Interaktion zwischen visueller und textueller Modalität beiträgt. Um die feingranulare Ausrichtung zu erforschen, schlagen wir zwei Paradigmen der impliziten semantischen Ausrichtung vor: Multilevel-Ausrichtung (MLA) und bidirektionales Maskierungsmodell (BMM). Das MLA-Modul untersucht präzisere Übereinstimmungen auf Satz-, Phrase- und Wortebene, während das BMM-Modul darauf abzielt, mehr semantische Ausrichtungen zwischen den visuellen und textuellen Modalitäten zu erschließen.Umfangreiche Experimente wurden durchgeführt, um das vorgeschlagene IVT auf öffentlichen Datensätzen wie CUHK-PEDES, RSTPReID und ICFG-PEDES zu evaluieren. Selbst ohne explizite Körperteilausrichtung erreicht unser Ansatz den Stand der Technik. Der Quellcode ist unter folgendem Link verfügbar:https://github.com/TencentYoutuResearch/PersonRetrieval-IVT.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
See Finer, See More: Implizite Modalitätsausrichtung für textbasierte Personensuche | Paper | HyperAI