Verbesserung der Pflanzensegmentierung in Zeitreihen von Satellitenbildern mit Transformer-Netzwerken
Neuere Studien haben gezeigt, dass Faltungsneuronale Netze (Convolutional Neural Networks, CNNs) beeindruckende Ergebnisse bei der Pflanzenartensegmentierung von Satellitenbildzeitreihen (Satellite Image Time-Series, SITS) erzielen. Die zunehmende Einführung von Transformer-Netzwerken in verschiedenen Computer-Vision-Aufgaben wirft jedoch die Frage auf, ob diese Architekturen CNNs bei der Segmentierung von SITS überlegen sein können. In dieser Arbeit wird eine überarbeitete Version des auf Transformer basierenden Swin UNETR-Modells vorgestellt, das speziell für die Segmentierung von Pflanzenarten in SITS angepasst wurde. Das vorgeschlagene Modell zeigt signifikante Fortschritte und erreicht eine Validierungsgenauigkeit von 96,14 % sowie eine Testgenauigkeit von 95,26 % auf dem München-Datensatz – wodurch die bisher besten Ergebnisse von 93,55 % (Validierung) und 92,94 % (Test) übertroffen werden. Zudem erzielt das Modell auf dem Lombardia-Datensatz eine Leistung, die mit UNet3D vergleichbar ist und die von FPN und DeepLabV3 übertrifft. Experimentelle Ergebnisse deuten darauf hin, dass das Modell im Vergleich zu CNNs eine vergleichbare oder sogar bessere Genauigkeit erzielen wird, dabei jedoch deutlich weniger Trainingszeit erfordert. Diese Ergebnisse unterstreichen das Potenzial transformerbasierter Architekturen für die Segmentierung von Pflanzenarten in SITS und eröffnen neue Perspektiven für Anwendungen in der Fernerkundung.