HyperAIHyperAI
vor 15 Tagen

Reduzierung semantischer Verwirrung: Szenenbewusste Aggregationsnetzwerk für die Fernerkundungs-Übermodalitätssuche

{Cong Bai, Qing Ma, Jiancheng Pan}
Abstract

In letzter Zeit hat die multimodale Retrieval-Technik auf Basis von Fernerkundungsdaten erhebliche Aufmerksamkeit von Forschern erfahren. Allerdings führt die einzigartige Natur von Fernerkundungsbildern zu zahlreichen semantischen Verwechslungszonen im semantischen Raum, was die Retrieval-Leistung erheblich beeinträchtigt. Wir stellen ein neuartiges, szenenbewusstes Aggregationsnetzwerk (SWAN) vor, um semantische Verwechslungen durch Verbesserung der Szenenwahrnehmungsfähigkeit zu reduzieren. Im visuellen Darstellungsansatz wird ein visueller Multiskalen-Fusionsmodul (VMSF) vorgestellt, um visuelle Merkmale unterschiedlicher Skalen als Grundlage der visuellen Repräsentation zu fusionieren. Gleichzeitig wird ein Szenen-feinabgestimmter Wahrnehmungsmodul (SFGS) vorgeschlagen, um die Zusammenhänge markanter Merkmale auf unterschiedlichen Granularitätsstufen herzustellen. Durch die Kombination der visuellen Informationen beider Module entsteht eine szenenbewusste visuelle Aggregationsrepräsentation. Im textuellen Darstellungsansatz wird ein textuelles grobgranulare Verbesserungsmodul (TCGE) entworfen, um die Semantik von Texten zu stärken und die visuelle Information zu alignen. Da die Vielfalt und Differenziertheit von Fernerkundungsszenen die Szeneninterpretation beeinträchtigen, wird ein neues Maß, das sogenannte Szenen-Rückruf (scene recall), eingeführt, um die Szenenwahrnehmung durch die Bewertung der Szenenebene-Performance beim Retrieval zu messen. Dieses Maß kann zudem die Wirksamkeit unseres Ansatzes zur Reduktion semantischer Verwechslungen bestätigen. Durch Leistungsvergleiche, Ablationsstudien und Visualisierungsanalysen haben wir die Wirksamkeit und Überlegenheit unseres Ansatzes an zwei Datensätzen, RSICD und RSITMD, validiert. Der Quellcode ist unter https://github.com/kinshingpoon/SWAN-pytorch verfügbar.

Reduzierung semantischer Verwirrung: Szenenbewusste Aggregationsnetzwerk für die Fernerkundungs-Übermodalitätssuche | Neueste Forschungsarbeiten | HyperAI