HyperAIHyperAI
vor 2 Monaten

EarthVQA: Auf dem Weg zu einem abfragbaren Erdmodell durch relationales Schließen auf Basis von Fernerkundungsvisuellen Frage- und Antwortsystemen

Wang, Junjue ; Zheng, Zhuo ; Chen, Zihang ; Ma, Ailong ; Zhong, Yanfei
EarthVQA: Auf dem Weg zu einem abfragbaren Erdmodell durch relationales Schließen auf Basis von Fernerkundungsvisuellen Frage- und Antwortsystemen
Abstract

Forschungen im Bereich Erdvision konzentrieren sich in der Regel auf die Extraktion von georäumlichen Objektstandorten und -kategorien, vernachlässigen jedoch die Erforschung von Beziehungen zwischen Objekten und umfassende Schlussfolgerungen. Ausgehend von den Anforderungen der Stadtplanung haben wir ein multimodales, multiaufgaben-basiertes VQA-Datensatz (EarthVQA) entwickelt, um relationale Schlussfolgerungen-basierte Bewertungen, Zählvorgänge und umfassende Analysen zu verbessern. Der EarthVQA-Datensatz enthält 6000 Bilder, entsprechende semantische Masken und 208.593 Frage-Antwort-Paare, in denen städtische und ländliche Verwaltungsanforderungen verankert sind. Da Objekte die Grundlage für komplexe relationale Schlussfolgerungen bilden, schlagen wir ein semantisches Objektbewusstseins-Framework (SOBA) vor, um VQA auf objektzentrierte Weise zu verbessern. Um detaillierte räumliche Standorte und Semantiken zu erhalten, nutzt SOBA ein Segmentierungsnetzwerk zur Generierung von Objektsemantiken. Die objektgeführte Aufmerksamkeit aggregiert innere Objekteigenschaften durch Pseudomasken, während bidirektionale Kreuzaufmerksamkeit Beziehungen zwischen den Objekten hierarchisch modelliert. Um die Genauigkeit des Zählens zu optimieren, schlagen wir einen numerischen Differenzverlust vor, der dynamisch Differenzstrafen hinzufügt und so Klassifikations- und Regressionsaufgaben vereint. Experimentelle Ergebnisse zeigen, dass SOBA sowohl fortschrittliche allgemeine als auch fernerkundungsbasierte Methoden übertrifft. Wir glauben, dass dieser Datensatz und dieses Framework eine wichtige Referenz für komplexe Analysen im Bereich Erdvision bieten. Die Projektseite befindet sich unter https://Junjue-Wang.github.io/homepage/EarthVQA.

EarthVQA: Auf dem Weg zu einem abfragbaren Erdmodell durch relationales Schließen auf Basis von Fernerkundungsvisuellen Frage- und Antwortsystemen | Neueste Forschungsarbeiten | HyperAI