Gemeinsame spatio-temporale Modellierung für die semantische Änderungserkennung in Fernerkundungsbildern

Die semantische Änderungserkennung (Semantic Change Detection, SCD) bezeichnet die Aufgabe, gleichzeitig die veränderten Bereiche sowie die semantischen Kategorien (vor und nach der Änderung) in Fernerkundungsbildern (Remote Sensing Images, RSIs) zu extrahieren. Im Gegensatz zur binären Änderungserkennung (Binary Change Detection, BCD) ist dieser Ansatz bedeutungsvoller, da er eine detaillierte Analyse der Veränderungen in den beobachteten Gebieten ermöglicht. Frühere Arbeiten etablierten dreigeteilte Architekturen auf Basis von Faltungsneuralen Netzen (Convolutional Neural Networks, CNNs) als Paradigma für die SCD. Dennoch bleibt die Ausnutzung semantischer Informationen bei begrenzten Veränderungsproben weiterhin herausfordernd. In dieser Arbeit untersuchen wir die gleichzeitige Berücksichtigung von räumlich-zeitlichen Abhängigkeiten, um die Genauigkeit der SCD zu verbessern. Zunächst schlagen wir einen Semantic Change Transformer (SCanFormer) vor, der explizit die „von-zu“-Semantikübergänge zwischen bi-temporalen RSIs modelliert. Anschließend führen wir ein semantisches Lernschema ein, das die räumlich-zeitlichen Einschränkungen nutzt, welche der SCD-Aufgabe inhärent sind, um das Lernen semantischer Veränderungen zu leiten. Das resultierende Netzwerk (SCanNet) übertrifft die Baseline-Methode signifikant sowohl hinsichtlich der Erkennung kritischer semantischer Veränderungen als auch hinsichtlich der semantischen Kohärenz in den erhaltenen bi-temporalen Ergebnissen. Es erreicht die Stand-of-the-Art (SOTA)-Genauigkeit auf zwei etablierten Benchmark-Datensätzen für die SCD.