Ein vorheriges Anweisungsrepräsentationsframework für die Abfrage von Bilddaten und Texten in Fernerkundungsdaten
Diese Arbeit präsentiert einen vorherigen Anweisungsrepräsentationsrahmen (PIR) für die Abbildung von Fernerkundungsbildern und Text, der darauf abzielt, Aufgaben der Fernerkundungs-Vision-Sprache-Verständnis zu lösen und das Problem der semantischen Störungen zu adressieren. Der zentrale Beitrag liegt in der Einführung eines Paradigmas, das vorheriges Wissen nutzt, um einen adaptiven Lernprozess für visuelle und textuelle Repräsentationen zu steuern. Konkret werden zwei progressive Aufmerksamkeits-Encoder-Strukturen, der Spatial-PAE und der Temporal-PAE, vorgeschlagen, um langreichweitige Abhängigkeiten zu modellieren und die Repräsentation von Schlüsselmerkmalen zu verbessern. Bei der visuellen Repräsentation nutzt die Vision Instruction Representation (VIR), basierend auf dem Spatial-PAE, vorheriges, wissensbasiertes Wissen zur Erkennung von Fernerkundungsszenen, indem eine Glaubwürdigkeitsmatrix aufgebaut wird, um relevante Merkmale auszuwählen und somit die Auswirkungen semantischer Störungen zu reduzieren. Bei der textuellen Repräsentation verwendet die Language Cycle Attention (LCA), basierend auf dem Temporal-PAE, den vorherigen Zeitschritt, um den aktuellen Zeitschritt zyklisch zu aktivieren und so die Fähigkeit der Textrepräsentation zu verstärken. Zudem wird eine clusterweise Zugehörigkeitsverlustfunktion vorgeschlagen, um die Unterscheidung zwischen Klassen zu fördern und die semantischen Verwechslungsregionen im gemeinsamen Unterraum zu minimieren. Umfassende Experimente zeigen, dass die Nutzung vorheriger Wissensanweisungen die visuelle und textuelle Repräsentation verbessern kann und die vorgeschlagene Methode sowohl auf den beiden Benchmark-Datensätzen RSICD als auch RSITMD die derzeit besten Ansätze übertrifft.