Untersuchung einer feinkörnigen multiskalaren Methode für die abstandsübergreifende Abbildungsretrieval von Fernerkundungsbildern

Remote Sensing (RS)-basierte, multimodale Text-Bild-Retrieval-Aufgaben haben aufgrund ihrer flexiblen Eingabemöglichkeiten und effizienten Abfragestrategien erhebliche Aufmerksamkeit erfahren. Traditionelle Ansätze vernachlässigen jedoch die charakteristischen Eigenschaften von Multiskalen- und redundanten Objekten in RS-Bildern, was zu einer Verschlechterung der Retrieval-Genauigkeit führt. Um das Problem der Multiskalen-Unterrepräsentation und Objekt-Redundanz in multimodalen RS-Retrieval-Aufgaben zu bewältigen, stellen wir ein neuartiges asymmetrisches multimodales Merkmalsübereinstimmungsnetzwerk (Asymmetric Multimodal Feature Matching Network, AMFMN) vor. Unser Modell ist an multiskalige Merkmals-Eingaben angepasst, fördert multimodale Abfragemethoden aus mehreren Quellen und ermöglicht dynamische Filterung redundanter Merkmale. Das AMFMN nutzt das Multi-Scale Visual Self-Attention (MVSA)-Modul zur Extraktion auffälliger Merkmale aus RS-Bildern und verwendet visuelle Merkmale zur Leitung der Textrepräsentation. Darüber hinaus verringern wir die Unsicherheit positiver Beispiel-Paare, die durch die starke innerklassige Ähnlichkeit in RS-Bildern verursacht wird, durch die Einführung einer Triplet-Verlustfunktion mit dynamischem Margin, basierend auf der vorherigen Ähnlichkeit von Beispiel-Paaren. Schließlich erstellen wir im Gegensatz zu traditionellen RS-Bild-Text-Datensätzen mit groben Textbeschreibungen und hoher innerklassiger Ähnlichkeit einen fein granularen und anspruchsvolleren Datensatz namens Remote Sensing Image-Text Match Dataset (RSITMD), der die RS-Bildretrieval-Funktion sowohl über Stichwörter als auch über Sätze einzeln und gemeinsam unterstützt. Experimente auf vier RS-Text-Bild-Datensätzen zeigen, dass das vorgeschlagene Modell eine state-of-the-art-Leistung bei der multimodalen RS-Text-Bild-Retrieval-Aufgabe erzielt.