
摘要
许多RGBT跟踪研究主要集中在模态融合设计上,而忽视了对目标外观变化的有效处理。尽管一些方法引入了历史帧或将初始模板进行融合和替换以纳入时间信息,但这些方法存在破坏原始目标外观并随着时间累积误差的风险。为了解决这些局限性,我们提出了一种新颖的Transformer RGBT跟踪方法,该方法在Transformer中混合静态多模态模板和多模态搜索区域的时空多模态标记,以应对目标外观变化,实现鲁棒的RGBT跟踪。我们引入了独立的动态模板标记来与搜索区域互动,嵌入时间信息以解决外观变化问题,同时保留初始静态模板标记在联合特征提取过程中的参与,以确保不因传统的时序更新而导致目标外观偏离,从而保持可靠的原始目标外观信息。此外,我们还利用注意力机制增强多模态模板标记的目标特征,通过融入辅助模态线索,并使多模态搜索区域标记与多模态动态模板标记通过注意力机制进行互动,这有助于传递多模态增强的目标变化信息。我们的模块被插入到Transformer主干网络中,并继承了联合特征提取、搜索-模板匹配和跨模态交互的功能。在三个RGBT基准数据集上的大量实验表明,所提出的算法在性能上与其他最先进的跟踪算法相当,并且运行速度达到39.1 FPS。