
摘要
许多先进的RGB-T跟踪器通过模态融合取得了显著的成果。然而,这些跟踪器往往要么忽视了时间信息,要么未能充分利用时间信息,导致多模态和时间信息之间的平衡效果不佳。为了解决这一问题,我们提出了一种新的跨融合RGB-T跟踪架构(CFBT),该架构确保多种模态在跟踪过程中充分参与,同时动态地融合时间信息。CFBT的有效性依赖于三个新设计的跨时空信息融合模块:跨时空增强融合模块(CSTAF)、跨时空互补融合模块(CSTCF)和双流时空适配器(DSTA)。CSTAF采用交叉注意力机制全面增强模板的特征表示。CSTCF利用不同分支之间的互补信息来增强目标特征并抑制背景特征。DSTA借鉴适配器的概念,在变压器层内自适应地融合来自多个分支的互补信息,以RGB模态作为媒介。这些巧妙的多视角融合方法仅引入了总模态参数不到0.3%的额外开销,但确实实现了多模态和时间信息之间高效的平衡。在三个流行的RGB-T跟踪基准数据集上的大量实验表明,我们的方法达到了新的最先进性能。