Kreuzmodale Implizite Beziehungsreasoning und -ausrichtung für die Text-zu-Bild-Personensuche

Text-to-Image-Personenidentifikation (Text-to-image person retrieval) strebt danach, die Zielperson auf Grundlage einer gegebenen textuellen Beschreibungsanfrage zu identifizieren. Die Hauptausforderung besteht darin, die Abbildung von visueller und textueller Modalität in einen gemeinsamen latenten Raum zu erlernen. Frühere Arbeiten haben versucht, diese Herausforderung durch den Einsatz getrennt vortrainierter unimodaler Modelle zur Extraktion von visuellen und textuellen Merkmalen zu bewältigen. Diese Ansätze fehlen jedoch die notwendigen unterliegenden Ausrichtungsfähigkeiten, um multimodale Daten effektiv abzugleichen. Zudem verwenden diese Arbeiten Vorinformationen, um explizite Teil-Ausrichtungen zu erforschen, was zu einer Verzerrung der intramodalen Informationen führen kann. Um diese Probleme zu lindern, stellen wir IRRA vor: ein cross-modales Framework für implizites Relationsschließen und -ausrichten (cross-modal Implicit Relation Reasoning and Aligning framework), das Beziehungen zwischen lokalen visuellen und textuellen Token lernt und die globale Bild-Text-Abstimmung ohne zusätzliche vorherige Überwachung verbessert. Speziell entwerfen wir zunächst ein Modul für implizites Relationsschließen im Paradigma des maskierten Sprachmodells (masked language modeling paradigm). Dies erreicht eine cross-modale Interaktion, indem es visuelle Hinweise in die textuellen Token mit einem cross-modalen Multimodalitätsinteraktionsencoder integriert. Zweitens, um die visuellen und textuellen Einbettungen global auszurichten, wird eine Ähnlichkeitsverteilungsabstimmung (Similarity Distribution Matching) vorgeschlagen, um die Kullback-Leibler-Divergenz zwischen Bild-Text-Ähnlichkeitsverteilungen und den normalisierten Label-Abstimmungsverteilungen zu minimieren. Die vorgestellte Methode erzielt neue Standesbestrebungen (state-of-the-art results) auf allen drei öffentlichen Datensätzen, wobei sie im Vergleich zu früheren Methoden einen bemerkenswerten Vorsprung von etwa 3%-9% in der Rang-1-Genauigkeit aufweist.