Command Palette
Search for a command to run...
多模态跟踪的双向适配器
多模态跟踪的双向适配器
Bing Cao Junliang Guo Pengfei Zhu* Qinghua Hu
摘要
由于计算机视觉的快速发展,单模态(RGB)目标跟踪在近年来取得了显著进展。考虑到单一成像传感器的局限性,多模态图像(RGB、红外等)被引入以弥补这一不足,实现复杂环境下的全天候目标跟踪。然而,由于获取足够的多模态跟踪数据较为困难,且主导模态会随着开放环境的变化而变化,现有的大多数技术无法动态提取多模态互补信息,导致跟踪性能不尽如人意。为了解决这一问题,我们提出了一种基于通用双向适配器的新型多模态视觉提示跟踪模型,该模型通过跨模态相互提示来融合多个模态的信息。我们的模型由一个通用双向适配器和多个参数共享的模态特定 Transformer 编码器分支组成。编码器利用冻结的预训练基础模型分别提取每个模态的特征。我们开发了一个简单但有效的轻量级特征适配器,用于从一个模态向另一个模态传递特定模态的信息,从而以自适应的方式进行视觉特征提示融合。与完全微调方法和基于提示学习的方法相比,我们的模型仅增加了少量(0.32M)可训练参数,却实现了优越的跟踪性能。我们的代码已公开:https://github.com/SparkTempest/BAT。