
深層学習は、航空画像理解のためのリモートセンシング(RS)研究を大きく再構築し、大きな成功を収めています。しかし、既存の多くの深層モデルはImageNetの事前学習重みで初期化されています。自然画像は航空画像に対して必然的に大きなドメインギャップを呈するため、下流の航空シーンタスクでの微調整性能に制限が生じる可能性があります。この問題から、我々は航空画像に対するリモートセンシング事前学習(RSP)の経験的研究を行うことを動機付けられました。この目的のために、現在まで最大規模のRSシーン認識データセットであるMillionAIDを使用して、異なるネットワークをゼロから訓練し、一連のRS事前学習バックボーンを得ました。これらのバックボーンには、コンピュータビジョンタスクで有望な性能を示している畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(SwinやViTAEなど)が含まれます。次に、これらのCNNとビジョントランスフォーマーバックボーンを使用して、シーン認識、セマンティックセグメンテーション、オブジェクト検出、変化検出などの代表的な下流タスクにおけるRSPの影響を調査しました。経験的研究の結果、RSPはシーン認識タスクにおいて優れた性能を達成し、「橋」や「飛行機」などのRS関連セマンティクスの理解に貢献することが示されました。また、RSPが伝統的なImageNet事前学習におけるデータ差異を軽減する一方で、下流タスクがシーン認識タスクとは異なる表現を必要とするため、タスク差異による課題が依然として存在することも明らかになりました。これらの知見は、大規模な事前学習データセットと効果的な事前学習方法に関するさらなる研究努力を求めています。コードと事前学習済みモデルは以下のURLで公開されます: https://github.com/ViTAE-Transformer/ViTAE-Transformer-Remote-Sensing.