HyperAIHyperAI

Command Palette

Search for a command to run...

Global–Local Information Soft-Alignment für cross-modale Retrieval von Fernerkundungsbildern und Text

Qian Wu Jianting Zhang Yafei Lv Zaidao Wen Gang Hu

Zusammenfassung

Die Kreuzmodale Fernerkundungsbild–Text-Recherche (CMRSITR) ist eine anspruchsvolle Aufgabe, die darauf abzielt, gezielte Fernerkundungsbilder (RS-Bilder) anhand von textuellen Beschreibungen zu retrieven. Der erhebliche Modalgap zwischen Texten und RS-Bildern stellt jedoch eine bedeutende Herausforderung dar. RS-Bilder enthalten häufig mehrere Objekte und komplexe Hintergründe, was die Extraktion sowohl globaler als auch lokaler Informationen (GaLR) für eine effektive CMRSITR erforderlich macht. Bisherige Ansätze konzentrieren sich hauptsächlich auf lokale Bildmerkmale und vernachlässigen dabei die lokalen Merkmale des Textes sowie deren Korrespondenz. Diese Methoden fusionieren typischerweise globale und lokale Bildmerkmale und alignen sie mit globalen Textmerkmalen. Sie stoßen jedoch häufig an Grenzen bei der Unterdrückung von störenden Hintergründen und können entscheidende Objekte übersehen. Um diese Einschränkungen zu überwinden, schlagen wir einen neuartigen Rahmen für die CMRSITR vor, der auf einer Transformer-Architektur basiert und die globale-lokale Informations-Soft-Alignment (GLISA) nutzt, um die Rechercheleistung zu verbessern. Unser Rahmen beinhaltet einen globalen Bildextraktionsmodul, der die globalen semantischen Merkmale von Bild-Text-Paaren erfasst und die Beziehungen zwischen mehreren Objekten in RS-Bildern effektiv repräsentiert. Darüber hinaus führen wir einen adaptiven lokalen Informationsextraktionsmodul (ALIE) ein, der diskriminative lokale Hinweise sowohl aus RS-Bildern als auch aus Texten adaptiv extrahiert und die entsprechenden feinkörnigen Informationen aligniert. Um semantische Mehrdeutigkeiten bei der Alignment lokaler Merkmale zu verringern, entwerfen wir einen lokalen Informations-Soft-Alignment-Modul (LISA). In vergleichenden Evaluierungen an zwei öffentlichen CMRSITR-Datensätzen erzielt unsere vorgeschlagene Methode Ergebnisse auf Spitzenniveau und übertrifft nicht nur traditionelle Kreuzmodale-Recherche-Methoden deutlich, sondern auch andere auf CLIP basierende Ansätze.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp