HyperAI

Abstract

Neuere Studien haben gezeigt, dass Faltungsneuronale Netze (Convolutional Neural Networks, CNNs) beeindruckende Ergebnisse bei der Pflanzenartensegmentierung von Satellitenbildzeitreihen (Satellite Image Time-Series, SITS) erzielen. Die zunehmende Einführung von Transformer-Netzwerken in verschiedenen Computer-Vision-Aufgaben wirft jedoch die Frage auf, ob diese Architekturen CNNs bei der Segmentierung von SITS überlegen sein können. In dieser Arbeit wird eine überarbeitete Version des auf Transformer basierenden Swin UNETR-Modells vorgestellt, das speziell für die Segmentierung von Pflanzenarten in SITS angepasst wurde. Das vorgeschlagene Modell zeigt signifikante Fortschritte und erreicht eine Validierungsgenauigkeit von 96,14 % sowie eine Testgenauigkeit von 95,26 % auf dem München-Datensatz – wodurch die bisher besten Ergebnisse von 93,55 % (Validierung) und 92,94 % (Test) übertroffen werden. Zudem erzielt das Modell auf dem Lombardia-Datensatz eine Leistung, die mit UNet3D vergleichbar ist und die von FPN und DeepLabV3 übertrifft. Experimentelle Ergebnisse deuten darauf hin, dass das Modell im Vergleich zu CNNs eine vergleichbare oder sogar bessere Genauigkeit erzielen wird, dabei jedoch deutlich weniger Trainingszeit erfordert. Diese Ergebnisse unterstreichen das Potenzial transformerbasierter Architekturen für die Segmentierung von Pflanzenarten in SITS und eröffnen neue Perspektiven für Anwendungen in der Fernerkundung.

Benchmark	Methodik	Metriken
semantic-segmentation-on-lombardia-sentinel-2	UNet3D	Overall Accuracy: 80.77
semantic-segmentation-on-lombardia-sentinel-2	DeepLabv3 3D	Overall Accuracy: 74.51
semantic-segmentation-on-lombardia-sentinel-2	Swin UNETR	Overall Accuracy: 79.64
semantic-segmentation-on-lombardia-sentinel-2	3D FPN with NDVI Loss	Overall Accuracy: 77.23
unet-segmentation-on-munich-sentinel2-crop-1	UNet3D	Overall Accuracy: 94.73
unet-segmentation-on-munich-sentinel2-crop-1	Swin UNETR	Overall Accuracy: 95.26
unet-segmentation-on-munich-sentinel2-crop-1	DeepLabv3 3D	Overall Accuracy: 85.98

Benchmark

Methodik

Metriken

semantic-segmentation-on-lombardia-sentinel-2

UNet3D

Overall Accuracy: 80.77

semantic-segmentation-on-lombardia-sentinel-2

DeepLabv3 3D

Overall Accuracy: 74.51

semantic-segmentation-on-lombardia-sentinel-2

Swin UNETR

Overall Accuracy: 79.64