vor 6 Monaten

Zusammenfassung

Die Kreuzmodale Fernerkundungsbild–Text-Recherche (CMRSITR) ist eine anspruchsvolle Aufgabe, die darauf abzielt, gezielte Fernerkundungsbilder (RS-Bilder) anhand von textuellen Beschreibungen zu retrieven. Der erhebliche Modalgap zwischen Texten und RS-Bildern stellt jedoch eine bedeutende Herausforderung dar. RS-Bilder enthalten häufig mehrere Objekte und komplexe Hintergründe, was die Extraktion sowohl globaler als auch lokaler Informationen (GaLR) für eine effektive CMRSITR erforderlich macht. Bisherige Ansätze konzentrieren sich hauptsächlich auf lokale Bildmerkmale und vernachlässigen dabei die lokalen Merkmale des Textes sowie deren Korrespondenz. Diese Methoden fusionieren typischerweise globale und lokale Bildmerkmale und alignen sie mit globalen Textmerkmalen. Sie stoßen jedoch häufig an Grenzen bei der Unterdrückung von störenden Hintergründen und können entscheidende Objekte übersehen. Um diese Einschränkungen zu überwinden, schlagen wir einen neuartigen Rahmen für die CMRSITR vor, der auf einer Transformer-Architektur basiert und die globale-lokale Informations-Soft-Alignment (GLISA) nutzt, um die Rechercheleistung zu verbessern. Unser Rahmen beinhaltet einen globalen Bildextraktionsmodul, der die globalen semantischen Merkmale von Bild-Text-Paaren erfasst und die Beziehungen zwischen mehreren Objekten in RS-Bildern effektiv repräsentiert. Darüber hinaus führen wir einen adaptiven lokalen Informationsextraktionsmodul (ALIE) ein, der diskriminative lokale Hinweise sowohl aus RS-Bildern als auch aus Texten adaptiv extrahiert und die entsprechenden feinkörnigen Informationen aligniert. Um semantische Mehrdeutigkeiten bei der Alignment lokaler Merkmale zu verringern, entwerfen wir einen lokalen Informations-Soft-Alignment-Modul (LISA). In vergleichenden Evaluierungen an zwei öffentlichen CMRSITR-Datensätzen erzielt unsere vorgeschlagene Methode Ergebnisse auf Spitzenniveau und übertrifft nicht nur traditionelle Kreuzmodale-Recherche-Methoden deutlich, sondern auch andere auf CLIP basierende Ansätze.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Computer Vision

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Qian Wu Jianting Zhang Yafei Lv Zaidao Wen Gang Hu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Computer Vision

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Qian Wu Jianting Zhang Yafei Lv Zaidao Wen Gang Hu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Global–Local Information Soft-Alignment für cross-modale Retrieval von Fernerkundungsbildern und Text

Qian Wu Jianting Zhang Yafei Lv Zaidao Wen Gang Hu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Global–Local Information Soft-Alignment für cross-modale Retrieval von Fernerkundungsbildern und Text

Qian Wu Jianting Zhang Yafei Lv Zaidao Wen Gang Hu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Global–Local Information Soft-Alignment für cross-modale Retrieval von Fernerkundungsbildern und Text

Qian Wu Jianting Zhang Yafei Lv Zaidao Wen Gang Hu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters