HyperAIHyperAI

Command Palette

Search for a command to run...

Kreuzmodale adaptive doppelte Assoziation für die Text-zu-Bild-Personensuche

Dixuan Lin Yixing Peng Jingke Meng* Wei-Shi Zheng

Zusammenfassung

Text-to-Image Person Re-Identification (ReID) zielt darauf ab, Bilder einer Person basierend auf einer gegebenen textuellen Beschreibung zu ermitteln. Die wesentliche Herausforderung besteht darin, die Beziehungen zwischen detaillierten Informationen aus visuellen und textuellen Modalitäten zu lernen. Bestehende Arbeiten konzentrieren sich darauf, einen latenten Raum zu erlernen, um den Modalitätsunterschied zu verringern und lokale Korrespondenzen zwischen den beiden Modalitäten weiter aufzubauen. Allerdings gehen diese Methoden davon aus, dass Bild-zu-Text- und Text-zu-Bild-Assoziationen modalitätsunabhängig sind, was zu suboptimalen Assoziationen führt.In dieser Arbeit zeigen wir die Diskrepanz zwischen Bild-zu-Text- und Text-zu-Bild-Assoziation und schlagen CADA: Cross-Modal Adaptive Dual Association (CADA) vor, das feine bidirektionale bildtextuelle Assoziationen aufbaut. Unser Ansatz zeichnet sich durch ein dekodierungsbasiertes adaptives Dualassoziationsmodul aus, das eine vollständige Interaktion zwischen visuellen und textuellen Modalitäten ermöglicht und somit bidirektionale und adaptive multimodale Korrespondenzassoziationen zulässt.Speziell schlägt der Artikel ein bidirektionales Assoziationsmechanismus vor: Assoziation von Text-Token zu Bild-Patches (ATP) und Assoziation von Bild-Regionen zu Textattributen (ARA). Wir modellieren ATP adaptiv unter Berücksichtigung der Tatsache, dass die Aggregation von multimodalisierten Merkmalen aufgrund falscher Assoziationen zu Merkmalsverzerrungen führen kann. Für das Modellieren von ARA, da Attribute typischerweise die ersten unterscheidenden Merkmale einer Person sind, schlagen wir vor, die attributbezogene Assoziation durch Vorhersage des maskierten Textphrasens mithilfe der entsprechenden Bildregion zu erforschen.Schließlich lernen wir die Dualassoziationen zwischen Texten und Bildern, und die experimentellen Ergebnisse zeigen die Überlegenheit unserer dualen Formulierung. Der Code wird öffentlich zur Verfügung gestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kreuzmodale adaptive doppelte Assoziation für die Text-zu-Bild-Personensuche | Paper | HyperAI