HyperAIHyperAI
vor 15 Tagen

Untersuchung einer feinkörnigen multiskalaren Methode für die abstandsübergreifende Abbildungsretrieval von Fernerkundungsbildern

Zhiqiang Yuan, Wenkai Zhang, Kun Fu, Xuan Li, Chubo Deng, Hongqi Wang, Xian Sun
Untersuchung einer feinkörnigen multiskalaren Methode für die abstandsübergreifende Abbildungsretrieval von Fernerkundungsbildern
Abstract

Remote Sensing (RS)-basierte, multimodale Text-Bild-Retrieval-Aufgaben haben aufgrund ihrer flexiblen Eingabemöglichkeiten und effizienten Abfragestrategien erhebliche Aufmerksamkeit erfahren. Traditionelle Ansätze vernachlässigen jedoch die charakteristischen Eigenschaften von Multiskalen- und redundanten Objekten in RS-Bildern, was zu einer Verschlechterung der Retrieval-Genauigkeit führt. Um das Problem der Multiskalen-Unterrepräsentation und Objekt-Redundanz in multimodalen RS-Retrieval-Aufgaben zu bewältigen, stellen wir ein neuartiges asymmetrisches multimodales Merkmalsübereinstimmungsnetzwerk (Asymmetric Multimodal Feature Matching Network, AMFMN) vor. Unser Modell ist an multiskalige Merkmals-Eingaben angepasst, fördert multimodale Abfragemethoden aus mehreren Quellen und ermöglicht dynamische Filterung redundanter Merkmale. Das AMFMN nutzt das Multi-Scale Visual Self-Attention (MVSA)-Modul zur Extraktion auffälliger Merkmale aus RS-Bildern und verwendet visuelle Merkmale zur Leitung der Textrepräsentation. Darüber hinaus verringern wir die Unsicherheit positiver Beispiel-Paare, die durch die starke innerklassige Ähnlichkeit in RS-Bildern verursacht wird, durch die Einführung einer Triplet-Verlustfunktion mit dynamischem Margin, basierend auf der vorherigen Ähnlichkeit von Beispiel-Paaren. Schließlich erstellen wir im Gegensatz zu traditionellen RS-Bild-Text-Datensätzen mit groben Textbeschreibungen und hoher innerklassiger Ähnlichkeit einen fein granularen und anspruchsvolleren Datensatz namens Remote Sensing Image-Text Match Dataset (RSITMD), der die RS-Bildretrieval-Funktion sowohl über Stichwörter als auch über Sätze einzeln und gemeinsam unterstützt. Experimente auf vier RS-Text-Bild-Datensätzen zeigen, dass das vorgeschlagene Modell eine state-of-the-art-Leistung bei der multimodalen RS-Text-Bild-Retrieval-Aufgabe erzielt.

Untersuchung einer feinkörnigen multiskalaren Methode für die abstandsübergreifende Abbildungsretrieval von Fernerkundungsbildern | Neueste Forschungsarbeiten | HyperAI