HyperAIHyperAI
vor 2 Monaten

Kreuzmodale adaptive doppelte Assoziation für die Text-zu-Bild-Personensuche

Lin, Dixuan ; Peng, Yixing ; Meng, Jingke ; Zheng, Wei-Shi
Kreuzmodale adaptive doppelte Assoziation für die Text-zu-Bild-Personensuche
Abstract

Text-to-Image Person Re-Identification (ReID) zielt darauf ab, Bilder einer Person basierend auf einer gegebenen textuellen Beschreibung zu ermitteln. Die wesentliche Herausforderung besteht darin, die Beziehungen zwischen detaillierten Informationen aus visuellen und textuellen Modalitäten zu lernen. Bestehende Arbeiten konzentrieren sich darauf, einen latenten Raum zu erlernen, um den Modalitätsunterschied zu verringern und lokale Korrespondenzen zwischen den beiden Modalitäten weiter aufzubauen. Allerdings gehen diese Methoden davon aus, dass Bild-zu-Text- und Text-zu-Bild-Assoziationen modalitätsunabhängig sind, was zu suboptimalen Assoziationen führt.In dieser Arbeit zeigen wir die Diskrepanz zwischen Bild-zu-Text- und Text-zu-Bild-Assoziation und schlagen CADA: Cross-Modal Adaptive Dual Association (CADA) vor, das feine bidirektionale bildtextuelle Assoziationen aufbaut. Unser Ansatz zeichnet sich durch ein dekodierungsbasiertes adaptives Dualassoziationsmodul aus, das eine vollständige Interaktion zwischen visuellen und textuellen Modalitäten ermöglicht und somit bidirektionale und adaptive multimodale Korrespondenzassoziationen zulässt.Speziell schlägt der Artikel ein bidirektionales Assoziationsmechanismus vor: Assoziation von Text-Token zu Bild-Patches (ATP) und Assoziation von Bild-Regionen zu Textattributen (ARA). Wir modellieren ATP adaptiv unter Berücksichtigung der Tatsache, dass die Aggregation von multimodalisierten Merkmalen aufgrund falscher Assoziationen zu Merkmalsverzerrungen führen kann. Für das Modellieren von ARA, da Attribute typischerweise die ersten unterscheidenden Merkmale einer Person sind, schlagen wir vor, die attributbezogene Assoziation durch Vorhersage des maskierten Textphrasens mithilfe der entsprechenden Bildregion zu erforschen.Schließlich lernen wir die Dualassoziationen zwischen Texten und Bildern, und die experimentellen Ergebnisse zeigen die Überlegenheit unserer dualen Formulierung. Der Code wird öffentlich zur Verfügung gestellt.