Eine empirische Studie zur Vorkenntnistransferierung in der Fernerkundung

Tiefes Lernen hat die Remote Sensing (RS)-Forschung im Bereich der Interpretation von Luftbildern stark umgestaltet und großen Erfolg erzielt. Dennoch werden die meisten existierenden tiefen Modelle mit den vortrainierten Gewichten von ImageNet initialisiert. Da natürliche Bilder unvermeidlich einen großen Domänenunterschied zu Luftbildern aufweisen, könnte dies die Feinabstimmungsleistung bei nachgelagerten Aufgaben des Luftbildszenenverstehens einschränken. Dieses Problem motiviert uns, eine empirische Studie über das Remote Sensing-Vortraining (RSP) auf Luftbildern durchzuführen. Zu diesem Zweck trainieren wir verschiedene Netzwerke von Grund auf neu unter Verwendung des bislang größten RS-Szenenerkennungsdatensatzes – MillionAID – um eine Reihe von RS-vortrainierten Backbones zu erhalten, darunter sowohl konvolutive neuronale Netze (CNN) als auch Visionstransformer wie Swin und ViTAE, die vielversprechende Leistungen in Computer Vision-Aufgaben gezeigt haben. Anschließend untersuchen wir den Einfluss des RSP auf repräsentative nachgelagerte Aufgaben, darunter Szenenerkennung, semantische Segmentierung, Objekterkennung und Änderungserkennung, mithilfe dieser CNN- und Visionstransformer-Backbones. Die empirische Studie zeigt, dass RSP bei Szenenerkennungsaufgaben sowie bei der Wahrnehmung von RS-spezifischen Semantiken wie „Brücke“ und „Flugzeug“ herausragende Leistungen ermöglicht. Wir stellen außerdem fest, dass obwohl RSP die Datenunterschiede des traditionellen ImageNet-Vortrainings für RS-Bilder reduziert, es immer noch an Aufgabendisparitäten leiden kann, bei denen nachgelagerte Aufgaben unterschiedliche Darstellungen von Szenenerkennungsaufgaben erfordern. Diese Erkenntnisse fordern weitere Forschungsanstrengungen sowohl in Bezug auf große Vortrainingsdatensätze als auch effektive Vortrainingsmethoden heraus. Der Code und die vortrainierten Modelle werden veröffentlicht unter https://github.com/ViTAE-Transformer/ViTAE-Transformer-Remote-Sensing.