2ヶ月前
MTP: 多タスク事前学習を用いたリモートセンシング基礎モデルの進歩
Di Wang; Jing Zhang; Minqiang Xu; Lin Liu; Dongsheng Wang; Erzhong Gao; Chengxi Han; Haonan Guo; Bo Du; Dacheng Tao; Liangpei Zhang

要約
基盤モデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)の分野の構造を大きく変革しました。事前学習は、モデルの重みを効果的に初期化するための監督学習と自己監督学習手法を含む活発な研究トピックです。しかし、事前学習が画像分類や物体識別タスクとして定式化されているため、下流タスクへの転移ではタスク間の不一致が生じることがあります。本研究では、この問題を解決するために、RS基盤モデルにおけるマルチタスク事前学習(MTP)パラダイムを探求します。共有エンコーダーとタスク固有のデコーダー構造を使用し、SAMRSデータセット上で意味分割、インスタンス分割、回転物体検出を含むマルチタスク監督事前学習を行いました。MTPは3億以上のパラメータを持つ畳み込みニューラルネットワークとビジョントランスフォーマー基盤モデル双方をサポートしています。これらの事前学習済みモデルは、シーン分類、水平および回転物体検出、意味分割、変化検出などの様々なRS下流タスクで微調整されました。14のデータセットにわたる広範な実験により、当社のモデルが同規模の既存モデルよりも優れていることおよび大規模な最先端モデルと競合する性能であることが示され、MTPの有効性が確認されました。