
要約
ビジョン変換器(Vision Transformers: ViTs)は、コンピュータビジョンのタスクにおいて顕著な成功を収めてきた。しかし、回転に敏感な状況におけるViTsの潜在能力は十分に探求されておらず、この制限はデータの前向き伝播プロセスにおける空間不変性の欠如に起因する可能性がある。本研究では、方向付き物体検出においてViTsを活用するための新しいアプローチ、すなわち「空間変換の分離(Spatial Transform Decoupling: STD)」を提案する。STDはスタックされたViTブロックに基づき、境界ボックスの位置、サイズ、角度をそれぞれ独立したネットワークブランチで予測することで、分割統治戦略によりViTsが持つ空間変換の可能性を効果的に活用する。さらに、回帰されたパラメータに基づいて計算されるカスケード型活性マスク(Cascaded Activation Masks: CAMs)を統合することで、注目領域(Region of Interest: RoI)内の特徴が段階的に強化され、自己注意機構を補完する。複雑な追加構造を用いずに、STDはDOTA-v1.0(mAP 82.24%)およびHRSC2016(mAP 98.55%)といったベンチマークデータセットにおいて最先端の性能を達成し、提案手法の有効性を示した。ソースコードは以下のURLで公開されている:https://github.com/yuhongtian17/Spatial-Transform-Decoupling。