8 个月前

计算机视觉

Jianqiang Xia DianXi Shi Ke Song Linna Song XiaoLei Wang Songchang Jin Li Zhou Yu Cheng Lei Jin Zheng Zhu

摘要

大多数现有的RGB-T跟踪网络以分离的方式提取模态特征，缺乏模态之间的交互和相互引导。这限制了网络适应目标在不同双模态外观以及模态之间动态关系的能力。此外，这些网络所遵循的三阶段融合跟踪范式显著限制了跟踪速度。为了解决这些问题，我们提出了一种统一的单阶段Transformer RGB-T跟踪网络，即USTrack，该网络通过自注意力机制将上述三个阶段统一到一个带有双嵌入层的ViT（Vision Transformer）主干中。通过这种结构，网络可以在模态的相互作用下提取模板和搜索区域的融合特征。同时，在这些特征之间进行关系建模，高效地获得具有更好目标-背景区分能力的搜索区域融合特征用于预测。此外，我们引入了一种基于模态可靠性的新型特征选择机制，以减轻无效模态对预测的影响，进一步提高跟踪性能。在三个流行的RGB-T跟踪基准数据集上的大量实验表明，我们的方法不仅实现了新的最先进性能，还保持了最快的推理速度84.2 FPS。特别是，在VTUAV数据集的短期和长期子集上，MPR/MSR分别提高了11.1%和11.7%，以及11.3%和9.7%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Jianqiang Xia DianXi Shi Ke Song Linna Song XiaoLei Wang Songchang Jin Li Zhou Yu Cheng Lei Jin Zheng Zhu

摘要

大多数现有的RGB-T跟踪网络以分离的方式提取模态特征，缺乏模态之间的交互和相互引导。这限制了网络适应目标在不同双模态外观以及模态之间动态关系的能力。此外，这些网络所遵循的三阶段融合跟踪范式显著限制了跟踪速度。为了解决这些问题，我们提出了一种统一的单阶段Transformer RGB-T跟踪网络，即USTrack，该网络通过自注意力机制将上述三个阶段统一到一个带有双嵌入层的ViT（Vision Transformer）主干中。通过这种结构，网络可以在模态的相互作用下提取模板和搜索区域的融合特征。同时，在这些特征之间进行关系建模，高效地获得具有更好目标-背景区分能力的搜索区域融合特征用于预测。此外，我们引入了一种基于模态可靠性的新型特征选择机制，以减轻无效模态对预测的影响，进一步提高跟踪性能。在三个流行的RGB-T跟踪基准数据集上的大量实验表明，我们的方法不仅实现了新的最先进性能，还保持了最快的推理速度84.2 FPS。特别是，在VTUAV数据集的短期和长期子集上，MPR/MSR分别提高了11.1%和11.7%，以及11.3%和9.7%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供