HyperAIHyperAI

Command Palette

Search for a command to run...

大規模リモートセンシングデータセットにおける効率的なマスク画像モデリングのスケーリング

Fengxiang Wang Hongzhen Wang Di Wang Zonghao Guo Zhenyu Zhong Long Lan Jing Zhang Zhiyuan Liu Maosong Sun

概要

マスク画像モデリング(MIM)は、リモートセンシング(RS)分野における基礎視覚モデルの構築に不可欠な手法として広く採用されている。しかし、既存のRSデータセットの規模および多様性に限界があるため、MIM手法が汎化可能な表現を学習する能力が制限されている。さらに、従来のMIM手法はすべてのトークンを再構成する必要があるため、不要な計算負荷を引き起こすという問題がある。こうした課題に対処するため、本研究では、大規模なRSデータセットの構築と効率的なMIMアプローチを特徴とする新しい事前学習パイプラインを提案する。我々は、公開されている複数のRSデータセットを収集し、除外処理、領域分割、重複削除といった前処理を施して、高品質なデータセット「OpticalRS-13M」を構築した。OpticalRS-13Mは、物体検出やピクセルセグメンテーションなど、多様なRSタスクをカバーする1300万枚の光学画像から構成されている。効率性の向上を図るため、意味的に豊かなパッチトークンのみを動的に符号化・再構成する「SelectiveMAE」という事前学習手法を提案する。これにより、RS画像に多く含まれる冗長な背景ピクセルによる非効率性を低減し、従来のMIMモデルの性能低下を回避できる。広範な実験結果から、OpticalRS-13Mは分類、検出、セグメンテーションの性能を顕著に向上させることを示した。また、SelectiveMAEは学習効率を2倍以上向上させた。これらの結果は、本研究で提案するパイプラインがRS基礎モデル開発において、高い有効性とスケーラビリティを有していることを示している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています