Zusammenhang zwischen CNN-Transformer-Fusionsnetzwerk für Änderungserkennung

Während das tiefe Lernen, insbesondere konvolutionale Neuronale Netze (CNNs), die Veränderungserkennung in der Fernerkundung (RS) revolutioniert hat, verpassen bestehende Ansätze häufig entscheidende Merkmale, da sie den globalen Kontext vernachlässigen und ein unvollständiges Lernen von Veränderungen ermöglichen. Zudem leiden Transformer-Netze unter mangelnden Fähigkeiten zur Erfassung feinster Detailinformationen auf niedriger Ebene. RCTNet überwindet diese Einschränkungen durch die Einführung von \textbf{(1)} einem frühen Fusions-Backbone zur gleichzeitigen Ausnutzung räumlicher und zeitlicher Merkmale in frühen Netzwerkschichten, \textbf{(2)} einem Cross-Stage-Aggregation (CSA)-Modul zur Verbesserung der zeitlichen Repräsentation, \textbf{(3)} einem Multi-Scale-Feature-Fusion (MSF)-Modul zur reichhaltigeren Merkmalsextraktion im Decoder und \textbf{(4)} einem effizienten Selbst-Entschlüsselungs-Attention (ESA)-Modul, das Transformer-Techniken nutzt, um sowohl globale Informationen als auch feinabgestimmte Details präzise zu erfassen und somit eine genaue Veränderungserkennung zu ermöglichen. Umfangreiche Experimente belegen deutlich die Überlegenheit von RCTNet gegenüber herkömmlichen Methoden der RS-Bild-Veränderungserkennung und zeigen eine signifikante Verbesserung sowie ein optimales Gleichgewicht zwischen Genauigkeit und rechnerischem Aufwand.