Benchmarking und Skalierung von Deep-Learning-Modellen für die Landbedeckungsbildklassifikation

Die Verfügbarkeit der enormen Datenmenge an Copernicus Sentinel-2-Bildern hat neue Möglichkeiten eröffnet, tiefes Lernen (DL) für die Klassifikation von Landnutzung und Landbedeckung (LULC) zu nutzen. Allerdings fehlt derzeit eine umfassende Reihe von Benchmark-Experimenten, d. h. DL-Modelle, die auf derselben Datenset getestet wurden, mit einem gemeinsamen und konsistenten Satz an Metriken sowie auf derselben Hardware. In dieser Arbeit nutzen wir zum ersten Mal die BigEarthNet Sentinel-2-Datenset, um verschiedene aktuelle State-of-the-Art-DL-Modelle für das mehrklassige, mehrlabelbasierte LULC-Bildklassifikationsproblem zu benchmarken, und tragen dabei eine umfassende Sammlung von 60 trainierten Modellen bei. Unser Benchmark umfasst sowohl herkömmliche CNNs als auch nicht-konvolutionale Ansätze. Wir testen Architekturen wie EfficientNets und Wide Residual Networks (WRN) hinsichtlich Klassifizierungsgenauigkeit, Trainingszeit und Inferenzgeschwindigkeit. Darüber hinaus schlagen wir vor, den EfficientNet-Framework zur komplexen Skalierung einer leichtgewichtigen WRN zu nutzen. Durch die Integration eines effizienten Kanal-Attention-Mechanismus erreicht unser skaliertes, leichtgewichtiges Modell einen neuen State-of-the-Art. Es erzielt gegenüber einem Standard-ResNet50-Baseline-Modell eine um 4,5 % höhere durchschnittliche F-Score-Klassifizierungsgenauigkeit für alle 19 LULC-Klassen, wobei die Anzahl der trainierbaren Parameter um eine Größenordnung reduziert ist. Wir stellen alle trainierten Modelle sowie unseren Code für verteiltes Training auf mehreren GPU-Knoten zur Verfügung. Diese Sammlung vortrainierter Encoder kann für Transferlernen und schnelle Prototypenerstellung in verschiedenen Fernerkundungsaufgaben, die Sentinel-2-Daten nutzen, eingesetzt werden – anstatt auf Backbone-Modelle zurückzugreifen, die mit Daten aus einem anderen Domänenbereich (z. B. ImageNet) trainiert wurden. Wir validieren die Eignung dieser Modelle für Transferlernen an unterschiedlichen Datensätzen unterschiedlicher Größe. Unser bestperformendes WRN-Modell erreicht auf dem SEN12MS-Datensatz eine state-of-the-art-Leistung (71,1 % F-Score), obwohl es nur einem kleinen Bruchteil des Trainingsdatensatzes ausgesetzt war.