2 个月前
基于Transformer的特征分割和区域对齐方法在无人机视角下的地理定位
Dai, Ming ; Hu, Jianhong ; Zhuang, Jiedong ; Zheng, Enhui

摘要
跨视角地理定位是一项从不同视角匹配同一地理位置图像的任务,例如无人驾驶飞行器(UAV)和卫星图像。该任务面临的最大挑战是位置偏移以及距离和尺度的不确定性。现有的方法主要集中在挖掘更为全面的细粒度信息上,但低估了提取鲁棒特征表示和特征对齐的重要性。基于卷积神经网络(CNN)的方法在跨视角地理定位中取得了显著成功,但仍存在一些局限性,例如只能提取邻域中的部分信息,且某些尺度缩减操作会导致部分细粒度信息丢失。为此,我们引入了一种简单高效的基于变压器的结构——特征分割与区域对齐(Feature Segmentation and Region Alignment, FSRA),以增强模型理解和利用上下文信息及实例分布的能力。FSRA无需额外的监督信息,而是根据变压器特征图的热力分布自动划分区域,并在不同视角下一对一地对齐多个特定区域。最终,FSRA将每个区域整合为一组特征表示。其独特之处在于,FSRA不是手动划分区域,而是根据特征图的热力分布自动完成这一过程,从而即使在图像存在显著的位置偏移和尺度变化时,特定实例仍能被有效划分和对齐。此外,提出了一种多采样策略以克服卫星图像与其他来源图像数量上的差异。实验结果表明,所提出的方法在无人机视图目标定位和无人机导航两项任务中均表现出色,并达到了当前最佳水平。代码将在https://github.com/Dmmm1997/FSRA 上发布。