RS5M および GeoRSCLIP:リモートセンシング向けの大規模な視覚言語データセットと大規模視覚言語モデル

大規模な画像-テキストペアデータを用いて事前学習された視覚言語モデル(VLM)は、画像とテキストの関連付け能力において画期的な成果を示し、さまざまな下流タスクにおいて優れた性能を達成している。しかし、一般的な物体に学習された大規模な事前学習済みVLMを、特定のドメインに特化したタスクに適用するためのドメイン特化的転移(domain-specific transfer)の実現は、依然として重要な課題である。本論文では、汎用視覚言語モデル(GVLM)とドメイン特化の下流タスクとの間のギャップを埋めるために、ドメイン事前学習視覚言語モデル(DVLM)を含む新しいフレームワークを提案する。さらに、リモートセンシング(RS)分野に特化した画像-テキストペアデータセット「RS5M」を提供する。RS5Mは、500万枚のリモートセンシング画像と英語による記述を含み、公開されている画像-テキストペアデータセットをフィルタリングし、事前学習済みVLMを用いてラベルのみのリモートセンシングデータセットにキャプションを付与することで構築された。これは、リモートセンシング分野における初の大規模な画像-テキストペアデータセットである。また、CLIPモデルをRS5M上で微調整し、複数のパラメータ効率的な微調整(Parameter-Efficient Fine-Tuning)手法を試験することでDVLMを実装した。実験結果から、提案するデータセットが多様なタスクにおいて極めて有効であることが示され、GeoRSCLIPモデルはゼロショット分類(ZSC)においてベースラインまたは従来の最先端モデル比で3%~20%、リモートセンシングクロスモーダルテキスト-画像検索(RSCTIR)で3%~6%、意味的局所化(SeLo)で4%~5%の性能向上を達成した。データセットおよびモデルは以下のURLにて公開されている:\url{https://github.com/om-ai-lab/RS5M}。