9日前
シンプルなビジョンTransformerによるリモートセンシング基盤モデルへの進展
Di Wang, Qiming Zhang, Yufei Xu, Jing Zhang, Bo Du, Dacheng Tao, Liangpei Zhang

要約
大規模な視覚基盤モデルは、自然画像における視覚タスクにおいて顕著な進展を遂げており、拡張性および表現能力に優れるため、視覚変換器(Vision Transformers)が主な選択肢となっている。しかし、リモートセンシング(RS)分野における大規模モデルの研究はまだ十分に進んでいない。本研究では、約1億パラメータを有するシンプルな視覚変換器を用い、リモートセンシングタスクに特化した大規模視覚モデルの提案を初めて試み、このような大規模モデルの性能を検証した。リモートセンシング画像に特有の大きなサイズおよび任意の向きを持つオブジェクトを効果的に処理するため、変換器内の従来のフルアテンションを置き換える新たな「回転可変サイズウィンドウアテンション」を提案する。このアプローチにより、生成された多様なウィンドウから豊かな文脈情報を抽出することで、より優れたオブジェクト表現を学習しつつ、計算コストとメモリ使用量を大幅に削減できる。物体検出タスクにおける実験結果から、本モデルが既存の最先端モデルすべてを上回ることを確認し、DOTA-V1.0データセットにおいて81.24%のmAPを達成した。また、下流タスクである分類およびセグメンテーションにおいても、既存の先進的手法と比較して競争力のある性能を示した。さらなる実験により、本モデルが転移学習における計算複雑性およびデータ効率の面で優れた特性を有することが明らかになった。