See Finer, See More: Implizite Modalitätsausrichtung für textbasierte Personensuche

Textbasierte Personensuche zielt darauf ab, eine Person auf Grundlage einer textuellen Beschreibung zu finden. Der Schlüssel besteht darin, einen gemeinsamen latenten Raum zwischen visueller und textueller Modalität zu erlernen. Um dieses Ziel zu erreichen, verwenden bestehende Arbeiten Segmentation, um explizite multimodale Ausrichtungen zu erhalten, oder nutzen Aufmerksamkeitstechniken, um auffällige Ausrichtungen zu erkunden. Diese Methoden haben zwei Nachteile: 1) Das Kennzeichnen von multimodal ausgerichteten Paaren ist zeitaufwendig. 2) Aufmerksamkeitsmethoden können auffällige multimodale Ausrichtungen erkunden, ignorieren aber möglicherweise einige subtile und wertvolle Paare.Um diese Probleme zu lindern, stellen wir ein implizites visuell-textuelles (IVT) Framework für die textbasierte Personensuche vor. Im Gegensatz zu früheren Modellen nutzt IVT ein einzelnes Netzwerk, um Darstellungen für beide Modalitäten zu erlernen, was zur Interaktion zwischen visueller und textueller Modalität beiträgt. Um die feingranulare Ausrichtung zu erforschen, schlagen wir zwei Paradigmen der impliziten semantischen Ausrichtung vor: Multilevel-Ausrichtung (MLA) und bidirektionales Maskierungsmodell (BMM). Das MLA-Modul untersucht präzisere Übereinstimmungen auf Satz-, Phrase- und Wortebene, während das BMM-Modul darauf abzielt, mehr semantische Ausrichtungen zwischen den visuellen und textuellen Modalitäten zu erschließen.Umfangreiche Experimente wurden durchgeführt, um das vorgeschlagene IVT auf öffentlichen Datensätzen wie CUHK-PEDES, RSTPReID und ICFG-PEDES zu evaluieren. Selbst ohne explizite Körperteilausrichtung erreicht unser Ansatz den Stand der Technik. Der Quellcode ist unter folgendem Link verfügbar:https://github.com/TencentYoutuResearch/PersonRetrieval-IVT.