HyperAIHyperAI
vor 15 Tagen

Global–Local Information Soft-Alignment für cross-modale Retrieval von Fernerkundungsbildern und Text

{Qian Wu, Jianting Zhang, Yafei Lv, Zaidao Wen, Gang Hu}
Abstract

Die Kreuzmodale Fernerkundungsbild–Text-Recherche (CMRSITR) ist eine anspruchsvolle Aufgabe, die darauf abzielt, gezielte Fernerkundungsbilder (RS-Bilder) anhand von textuellen Beschreibungen zu retrieven. Der erhebliche Modalgap zwischen Texten und RS-Bildern stellt jedoch eine bedeutende Herausforderung dar. RS-Bilder enthalten häufig mehrere Objekte und komplexe Hintergründe, was die Extraktion sowohl globaler als auch lokaler Informationen (GaLR) für eine effektive CMRSITR erforderlich macht. Bisherige Ansätze konzentrieren sich hauptsächlich auf lokale Bildmerkmale und vernachlässigen dabei die lokalen Merkmale des Textes sowie deren Korrespondenz. Diese Methoden fusionieren typischerweise globale und lokale Bildmerkmale und alignen sie mit globalen Textmerkmalen. Sie stoßen jedoch häufig an Grenzen bei der Unterdrückung von störenden Hintergründen und können entscheidende Objekte übersehen. Um diese Einschränkungen zu überwinden, schlagen wir einen neuartigen Rahmen für die CMRSITR vor, der auf einer Transformer-Architektur basiert und die globale-lokale Informations-Soft-Alignment (GLISA) nutzt, um die Rechercheleistung zu verbessern. Unser Rahmen beinhaltet einen globalen Bildextraktionsmodul, der die globalen semantischen Merkmale von Bild-Text-Paaren erfasst und die Beziehungen zwischen mehreren Objekten in RS-Bildern effektiv repräsentiert. Darüber hinaus führen wir einen adaptiven lokalen Informationsextraktionsmodul (ALIE) ein, der diskriminative lokale Hinweise sowohl aus RS-Bildern als auch aus Texten adaptiv extrahiert und die entsprechenden feinkörnigen Informationen aligniert. Um semantische Mehrdeutigkeiten bei der Alignment lokaler Merkmale zu verringern, entwerfen wir einen lokalen Informations-Soft-Alignment-Modul (LISA). In vergleichenden Evaluierungen an zwei öffentlichen CMRSITR-Datensätzen erzielt unsere vorgeschlagene Methode Ergebnisse auf Spitzenniveau und übertrifft nicht nur traditionelle Kreuzmodale-Recherche-Methoden deutlich, sondern auch andere auf CLIP basierende Ansätze.

Global–Local Information Soft-Alignment für cross-modale Retrieval von Fernerkundungsbildern und Text | Neueste Forschungsarbeiten | HyperAI