
摘要
RGB-T 跟踪作为目标跟踪的一个重要下游任务,在近年来取得了显著进展。然而,它仍然面临两个主要挑战:1)性能与效率之间的权衡;2)训练数据的稀缺性。为了应对后者挑战,一些最近的方法采用了提示(prompts)来微调预训练的 RGB 跟踪模型,并以参数高效的方式利用上游知识。然而,这些方法未能充分探索模态无关模式,并且忽视了在开放场景中不同模态的动态可靠性。我们提出了一种新的 RGB-T 提示跟踪方法——M3PT,该方法通过中间融合和多模态、多阶段视觉提示来克服这些挑战。我们率先在 RGB-T 跟踪中引入了可调中间融合元框架,这有助于跟踪器在性能与效率之间取得平衡,以满足各种应用需求。此外,基于该元框架,我们采用了多种灵活的提示策略,使预训练模型能够全面探索单模态模式并改进在不同模态优先场景下的融合模态特征建模,从而挖掘提示学习在 RGB-T 跟踪中的潜力。我们在 6 个现有的具有挑战性的基准数据集上进行了评估,结果表明我们的方法不仅超越了之前的最先进的提示微调方法,而且在仅使用 0.34M 微调参数的情况下仍保持了对优秀全参数微调方法的强大竞争力。