RemoteCLIP:リモートセンシング向けの視覚言語基礎モデル

汎用的な基礎モデルは、近年の人工知能分野における革新を牽引している。リモートセンシング分野においても、自己教師学習(Self-Supervised Learning, SSL)およびマスク画像モデリング(Masked Image Modeling, MIM)が基礎モデルの構築に採用されてきた。しかし、これらのモデルは主に低レベルの特徴を学習しており、ファインチューニングにはラベル付きデータを必要とする。さらに、言語理解能力に欠けるため、リtrieval(検索)やゼロショット(zero-shot)応用には適用が困難であるという課題がある。こうした制約を克服するため、本研究では、リモートセンシング分野における初の視覚言語基礎モデルであるRemoteCLIPを提案する。RemoteCLIPは、豊かな意味情報を備えた強固な視覚特徴と、テキスト埋め込みを適切に統合するアプローチにより、スムーズな下流タスク適用を実現することを目的としている。事前学習データの不足という課題に対処するため、データスケーリング戦略を導入し、異種のアノテーションをBox-to-Caption(B2C)およびMask-to-Box(M2B)変換により統一された画像-キャプション形式に変換する。さらに、無人航空機(UAV)画像を組み込むことで、既存のすべてのデータセットを統合したものの12倍規模の事前学習データセットを構築した。RemoteCLIPは、ゼロショット画像分類、線形プロービング、k-NN分類、少サンプル分類、画像-テキスト検索、リモートセンシング画像における物体カウントなど、多様な下流タスクに適用可能である。新たに導入されたRemoteCountベンチマークを含む16のデータセット上で実施された評価結果から、RemoteCLIPはモデルスケールに関わらず、ベースラインの基礎モデルを一貫して上回ることが明らかになった。特に、RSITMDデータセットでは最先端手法を9.14%の平均リコール率で上回り、RSICDデータセットでは8.92%の上昇を達成した。ゼロショット分類においても、12の下流データセットでCLIPベースラインを平均6.39%の精度向上で上回った。プロジェクトウェブサイト:https://github.com/ChenDelong1999/RemoteCLIP