9 天前

面向方向性目标检测的空间变换解耦

Hongtian Yu, Yunjie Tian, Qixiang Ye, Yunfan Liu
面向方向性目标检测的空间变换解耦
摘要

视觉Transformer(Vision Transformers, ViTs)在计算机视觉任务中取得了显著成功。然而,其在旋转敏感场景中的潜力尚未得到充分挖掘,这一局限性可能本质上源于数据前向传播过程中缺乏空间不变性。在本研究中,我们提出了一种新颖的方法——空间变换解耦(Spatial Transform Decoupling, STD),为基于ViTs的定向目标检测提供了一种简单而高效解决方案。STD基于堆叠的ViT模块构建,通过独立的网络分支分别预测边界框的位置、尺寸和角度,以分而治之的方式有效挖掘ViTs在空间变换方面的潜力。此外,STD通过聚合基于回归参数计算得到的级联激活掩码(Cascaded Activation Maps, CAMs),逐步增强感兴趣区域(Regions of Interest, RoIs)内的特征表示,从而对自注意力机制形成有效补充。在不依赖复杂技巧的前提下,STD在多个基准数据集上取得了当前最优性能,包括DOTA-v1.0(mAP达82.24%)和HRSC2016(mAP达98.55%),充分验证了所提方法的有效性。项目源代码已开源,地址为:https://github.com/yuhongtian17/Spatial-Transform-Decoupling。