概要

マスク画像モデリング（MIM）は、リモートセンシング（RS）分野における基礎視覚モデルの構築に不可欠な手法として広く採用されている。しかし、既存のRSデータセットの規模および多様性に限界があるため、MIM手法が汎化可能な表現を学習する能力が制限されている。さらに、従来のMIM手法はすべてのトークンを再構成する必要があるため、不要な計算負荷を引き起こすという問題がある。こうした課題に対処するため、本研究では、大規模なRSデータセットの構築と効率的なMIMアプローチを特徴とする新しい事前学習パイプラインを提案する。我々は、公開されている複数のRSデータセットを収集し、除外処理、領域分割、重複削除といった前処理を施して、高品質なデータセット「OpticalRS-13M」を構築した。OpticalRS-13Mは、物体検出やピクセルセグメンテーションなど、多様なRSタスクをカバーする1300万枚の光学画像から構成されている。効率性の向上を図るため、意味的に豊かなパッチトークンのみを動的に符号化・再構成する「SelectiveMAE」という事前学習手法を提案する。これにより、RS画像に多く含まれる冗長な背景ピクセルによる非効率性を低減し、従来のMIMモデルの性能低下を回避できる。広範な実験結果から、OpticalRS-13Mは分類、検出、セグメンテーションの性能を顕著に向上させることを示した。また、SelectiveMAEは学習効率を2倍以上向上させた。これらの結果は、本研究で提案するパイプラインがRS基礎モデル開発において、高い有効性とスケーラビリティを有していることを示している。

ソースPDF