2 个月前

基于Transformer的RGB-T跟踪与通道及空间特征融合

Yunfeng Li; Bo Wang; Ye Li; Zhiwen Yu; Liang Wang
基于Transformer的RGB-T跟踪与通道及空间特征融合
摘要

如何更好地融合跨模态特征是RGB-T跟踪的核心问题。一些先前的方法要么未能充分融合RGB和热红外(TIR)特征,要么依赖包含两种模态信息的中间体来实现跨模态信息交互。前者未能充分利用模板或搜索区域中的RGB和TIR信息进行通道和空间特征融合,而后者缺乏模板与搜索区域之间的直接交互,这限制了模型对两种模态原始语义信息的充分利用能力。为缓解这些局限性,我们探讨了通过直接融合跨模态通道和空间特征来提升视觉Transformer性能的方法,并提出了CSTNet。CSTNet以ViT作为主干网络,并插入跨模态通道特征融合模块(CFM)和跨模态空间特征融合模块(SFM),以实现RGB与TIR特征之间的直接交互。CFM对RGB和TIR特征进行并行联合通道增强及多层级联合空间特征建模,并将这些特征相加,然后在全球范围内将相加后的特征与原始特征进行整合。SFM利用交叉注意力机制建模跨模态特征的空间关系,随后引入卷积前馈网络实现多模态特征的联合空间和通道整合。我们在移除了CFM和SFM的模型中使用CSNet作为预训练权重重新训练模型,并提出了CSTNet-small,该模型在参数量上减少了36%,计算量(Flops)减少了24%,速度提高了50%,但性能下降了1-2%。综合实验表明,CSTNet在三个公开的RGB-T跟踪基准数据集上达到了最先进的性能。代码可在https://github.com/LiYunfengLYF/CSTNet 获取。

基于Transformer的RGB-T跟踪与通道及空间特征融合 | 最新论文 | HyperAI超神经