T-UNet: Triplet UNet für die Änderungserkennung in hochaufgelösten Fernerkundungsbildern

Die Veränderungserkennung in Fernerkundungsbildern zielt darauf ab, Unterschiede zwischen Bildern zu identifizieren, die zu verschiedenen Zeitpunkten an derselben Region aufgenommen wurden. Sie findet breite Anwendung in Bereichen wie Landnutzungsmanagement, Umweltüberwachung und Katastrophenbewertung. Derzeit basieren die meisten Verfahren zur Veränderungserkennung auf Siamese-Netzwerk- oder Frühfusionssystemen. Das Siamese-Strukturmodell konzentriert sich auf die Extraktion von Objektmerkmalen zu unterschiedlichen Zeitpunkten, berücksichtigt jedoch die Veränderungsinformationen nicht ausreichend, was zu falschen Alarmen und Ausfällen führt. Die Frühfusion (Early Fusion, EF) strukturiert hingegen Merkmale nach der Fusion von Bilddaten verschiedener Phasen, ignoriert jedoch die Bedeutung der Objektmerkmale zu unterschiedlichen Zeitpunkten für die präzise Erkennung von Veränderungsdetails, wodurch die genaue Bestimmung der Ränder veränderter Objekte erschwert wird. Um diese Probleme zu lösen und genauere Ergebnisse zu erzielen, schlagen wir ein neuartiges Netzwerk, das Triplet UNet (T-UNet), basierend auf einem dreigeteilten Encoder vor, das gleichzeitig Objektmerkmale und Veränderungsmerkmale zwischen Vor- und Nachphase-Bildern durch einen Triplet-Encoder extrahieren kann. Um die Merkmale, die aus den drei Zweigen des Triplet-Encoders extrahiert wurden, effektiv zu interagieren und zu fusionieren, stellen wir einen mehrzweigigen räumlich-spektralen Kreuz-Attention-Modul (Multi-Branch Spatial-Spectral Cross-Attention, MBSSCA) vor. Im Dekodierungsstadium integrieren wir die Kanal-Attention-Mechanismen (Channel Attention Mechanism, CAM) und die räumliche Attention-Mechanismen (Spatial Attention Mechanism, SAM), um detaillierte Texturinformationen aus tiefen Schichten und semantische Lokalisationsinformationen aus flachen Schichten optimal zu nutzen und zu kombinieren.