2 个月前
SDSTrack:多模态视觉目标跟踪的自蒸馏对称适配器学习
Xiaojun Hou; Jiazheng Xing; Yijie Qian; Yaowei Guo; Shuo Xin; Junhao Chen; Kai Tang; Mengmeng Wang; Zhengkai Jiang; Liang Liu; Yong Liu

摘要
多模态视觉目标跟踪(VOT)由于其鲁棒性最近受到了广泛关注。早期研究主要集中在对基于RGB的跟踪器进行完全微调,这不仅效率低下,而且由于多模态数据的稀缺性,缺乏泛化表示能力。因此,近期的研究利用了提示微调技术,将预训练的基于RGB的跟踪器迁移到多模态数据上。然而,模态差距限制了预训练知识的回忆,且RGB模态仍然占据主导地位,阻碍了其他模态信息的充分利用。为了解决这些问题,我们提出了一种新的对称多模态跟踪框架,称为SDSTrack。我们引入了一种轻量级适应方法以实现高效微调,该方法通过少量可训练参数直接将特征提取能力从RGB域转移到其他域,并以平衡、对称的方式融合多模态特征。此外,我们设计了一种互补掩码补丁蒸馏策略,以增强跟踪器在复杂环境中的鲁棒性,例如极端天气、成像不良和传感器故障等情况。大量实验表明,SDSTrack在各种多模态跟踪场景中均优于现有最先进方法,包括RGB+深度、RGB+热成像和RGB+事件跟踪,并在极端条件下表现出令人印象深刻的结果。我们的源代码可在https://github.com/hoqolo/SDSTrack 获取。