Richtungsorientiertes visuell-semantisches Embedding-Modell für die Retrieval-Aufgabe von Fernerkundungsbild-Text-Paaren

Die Bild-Text-Retrieval-Technik hat in den letzten Jahren eine schnelle Entwicklung erfahren. Dennoch stellt sie im Bereich der Fernerkundung weiterhin eine Herausforderung dar, bedingt durch ein visuell-semantisches Ungleichgewicht, das zu einer fehlerhaften Zuordnung nicht-semantischer visueller und textueller Merkmale führt. Um dieses Problem zu lösen, schlagen wir ein neuartiges, richtungsorientiertes visuell-semantisches Einbettungsmodell (Direction-Oriented Visual-semantic Embedding Model, DOVE) vor, das die Beziehung zwischen Vision und Sprache besser erfassen soll. Kernpunkte unseres Ansatzes sind die Darstellung visueller und textueller Repräsentationen im latenten Raum, wobei diese so weit wie möglich in Richtung einer redundanzfreien, regionalen visuellen Repräsentation ausgerichtet werden. Konkret ermöglicht ein regionalorientiertes Aufmerksamkeitsmodul (Regional-Oriented Attention Module, ROAM), die Distanz zwischen den endgültigen visuellen und textuellen Einbettungen im latenten semantischen Raum adaptiv zu steuern, wobei regionale visuelle Merkmale als Orientierung dienen. Gleichzeitig wurde ein leichtgewichtiges „Digging Text Genome Assistant“ (DTGA) entwickelt, das den Bereich der handhabbaren textuellen Repräsentation erweitert und gleichzeitig die globalen semantischen Verbindungen auf Wortebene verstärkt, wobei nur wenige Aufmerksamkeitsoperationen erforderlich sind. Schließlich wird eine globale visuell-semantische Einschränkung eingesetzt, um die Abhängigkeit von einzelnen visuellen Merkmalen zu reduzieren und gleichzeitig als externe Einschränkung für die endgültigen visuellen und textuellen Repräsentationen zu dienen. Die Wirksamkeit und Überlegenheit unseres Verfahrens wird durch umfangreiche Experimente bestätigt, darunter Parameteranalyse, quantitative Vergleiche, Ablationsstudien und visuelle Analyse, an zwei Standard-Datensätzen, RSICD und RSITMD.