
要約
ラベル付きデータの不足という課題から、リモートセンシング画像のシーン分類において、ImageNetで事前学習された教師ありモデルを用いることは、現実的な標準的手法となっている。近年、より大規模な高解像度リモートセンシング(HRRS)画像データセットの整備と自己教師学習の進展に伴い、リモートセンシングシーン分類において、ImageNetでの教師あり事前学習が依然として必要なのか、あるいはHRRS画像データセットでの教師あり事前学習、またはImageNetでの自己教師学習のどちらがターゲットのリモートセンシングシーン分類タスクにおいてより優れた結果をもたらすのかという疑問が浮上している。本論文では、これらの疑問に答えるため、複数のHRRS画像データセット上でモデルを初期から訓練する方法と、ImageNetで事前学習された教師ありモデルおよび自己教師学習モデルを微調整する方法を比較検証した。また、学習された表現の転移性をHRRSシーン分類タスクに適用して評価し、自己教師学習による事前学習が教師あり事前学習を上回ること、またHRRSデータセットでの教師あり事前学習の性能は自己教師学習と同等か、わずかに劣る結果となったことを示した。さらに、ImageNetで事前学習されたモデルに、ドメインに特化したHRRS画像を用いた第二段階の事前学習(ドメイン適応型事前学習)を組み合わせる手法を提案した。実験結果から、ドメイン適応型事前学習を用いることで、HRRSシーン分類のベンチマークにおいて最先端の性能が達成されることを確認した。ソースコードおよび事前学習済みモデルは、\url{https://github.com/risojevicv/RSSC-transfer} にて公開されている。