SiamixFormer: ein vollständig transformer-basierter Siamesen-Netzwerks mit zeitlicher Fusion für genaue Gebäudeerkennung und Änderungserkennung in bitemporalen Fernerkundungsdaten

Die Erkennung von Gebäuden und Veränderungen mithilfe von Fernerkundungsbildern kann der städtischen und Rettungsplanung helfen. Darüber hinaus können sie zur Schadensbewertung von Gebäuden nach Naturkatastrophen eingesetzt werden. Derzeit verwenden die meisten existierenden Modelle für die Gebäudeerkennung nur ein Bild (das Vorkatastrophenaufnahme), um Gebäude zu erkennen. Dies basiert auf der Annahme, dass Nachkatastrophenaufnahmen die Leistung des Modells wegen der Anwesenheit zerstörter Gebäude verringern. In dieser Arbeit schlagen wir ein siamesisches Modell vor, das SiamixFormer genannt wird, welches sowohl Vorkatastrophenaufnahmen als auch Nachkatastrophenaufnahmen als Eingabe verwendet. Unser Modell verfügt über zwei Encoder und eine hierarchische Transformer-Architektur. Die Ausgabe jeder Stufe in beiden Encodern wird an einen zeitlichen Transformer weitergegeben, um Merkmalsfusion durchzuführen, wobei das Query aus den Vorkatastrophenaufnahmen generiert wird und (Key, Value) aus den Nachkatastrophenaufnahmen (post-disaster images). Hierbei werden auch zeitliche Merkmale bei der Merkmalsfusion berücksichtigt. Ein weiterer Vorteil der Verwendung von zeitlichen Transformatoren bei der Merkmalsfusion ist, dass sie im Vergleich zu CNNs bessere große Rezeptivfelder erzeugen können, die von den Transformer-Encodern generiert wurden. Schließlich wird die Ausgabe des zeitlichen Transformers in jeder Stufe an einen einfachen MLP-Decoder weitergegeben. Das SiamixFormer-Modell wurde auf den Datensätzen xBD und WHU zur Gebäudeerkennung sowie auf den Datensätzen LEVIR-CD und CDD zur Veränderungserkennung evaluiert und konnte dabei die bisher besten Ergebnisse übertreffen.