HyperAIHyperAI

Command Palette

Search for a command to run...

Richtungsorientiertes visuell-semantisches Embedding-Modell für die Retrieval-Aufgabe von Fernerkundungsbild-Text-Paaren

Qing Ma Jiancheng Pan Cong Bai

Zusammenfassung

Die Bild-Text-Retrieval-Technik hat in den letzten Jahren eine schnelle Entwicklung erfahren. Dennoch stellt sie im Bereich der Fernerkundung weiterhin eine Herausforderung dar, bedingt durch ein visuell-semantisches Ungleichgewicht, das zu einer fehlerhaften Zuordnung nicht-semantischer visueller und textueller Merkmale führt. Um dieses Problem zu lösen, schlagen wir ein neuartiges, richtungsorientiertes visuell-semantisches Einbettungsmodell (Direction-Oriented Visual-semantic Embedding Model, DOVE) vor, das die Beziehung zwischen Vision und Sprache besser erfassen soll. Kernpunkte unseres Ansatzes sind die Darstellung visueller und textueller Repräsentationen im latenten Raum, wobei diese so weit wie möglich in Richtung einer redundanzfreien, regionalen visuellen Repräsentation ausgerichtet werden. Konkret ermöglicht ein regionalorientiertes Aufmerksamkeitsmodul (Regional-Oriented Attention Module, ROAM), die Distanz zwischen den endgültigen visuellen und textuellen Einbettungen im latenten semantischen Raum adaptiv zu steuern, wobei regionale visuelle Merkmale als Orientierung dienen. Gleichzeitig wurde ein leichtgewichtiges „Digging Text Genome Assistant“ (DTGA) entwickelt, das den Bereich der handhabbaren textuellen Repräsentation erweitert und gleichzeitig die globalen semantischen Verbindungen auf Wortebene verstärkt, wobei nur wenige Aufmerksamkeitsoperationen erforderlich sind. Schließlich wird eine globale visuell-semantische Einschränkung eingesetzt, um die Abhängigkeit von einzelnen visuellen Merkmalen zu reduzieren und gleichzeitig als externe Einschränkung für die endgültigen visuellen und textuellen Repräsentationen zu dienen. Die Wirksamkeit und Überlegenheit unseres Verfahrens wird durch umfangreiche Experimente bestätigt, darunter Parameteranalyse, quantitative Vergleiche, Ablationsstudien und visuelle Analyse, an zwei Standard-Datensätzen, RSICD und RSITMD.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Richtungsorientiertes visuell-semantisches Embedding-Modell für die Retrieval-Aufgabe von Fernerkundungsbild-Text-Paaren | Paper | HyperAI