
摘要
RGB与热红外(TIR)图像之间的模态差异是一个关键问题,但在现有的RGBT跟踪方法中往往被忽视。可以观察到,模态差异主要体现在图像风格的不同上。在本工作中,我们提出了一种新颖的耦合知识蒸馏框架,称为CKD(Coupled Knowledge Distillation),该框架通过追求不同模态的共同风格来打破模态差异,从而实现高性能的RGBT跟踪。具体而言,我们引入了两个学生网络,并采用了风格蒸馏损失,以尽可能使它们的风格特征保持一致。通过减轻两个学生网络之间的风格差异,我们可以很好地消除不同模态之间的模态差异。然而,风格特征的蒸馏可能会损害学生网络中两种模态的内容表示。为了解决这一问题,我们将原始的RGB和TIR网络作为教师网络,并通过风格-内容正交特征解耦方案分别将它们的内容知识蒸馏到两个学生网络中。我们在一个在线优化框架中耦合了上述两种蒸馏过程,从而形成了没有模态差异的新RGB和热红外特征表示。此外,我们还设计了一种掩码建模策略和一种多模态候选令牌消除策略,分别用于提高CKD的跟踪鲁棒性和效率。在五个标准RGBT跟踪数据集上的大量实验验证了所提出方法的有效性,并且其跟踪速度达到了最快的96.4 FPS。代码可在https://github.com/Multi-Modality-Tracking/CKD 获取。