11 天前

自适应感知的统一视觉多模态目标跟踪

Xiantao Hu, Bineng Zhong, Qihua Liang, Zhiyi Mo, Liangtao Shi, Ying Tai, Jian Yang
自适应感知的统一视觉多模态目标跟踪
摘要

近年来,许多多模态跟踪方法将可见光(RGB)作为主导模态,将其他模态视为辅助信息,并对各类多模态任务进行独立微调。这种模态依赖的不平衡性限制了方法在复杂场景下动态利用各模态互补信息的能力,难以充分发挥多模态融合的优势。因此,传统的统一参数模型在多种多模态跟踪任务中往往表现不佳。为解决这一问题,本文提出APTrack——一种面向多模态自适应感知的新型统一跟踪框架。与以往方法不同,APTrack采用均衡建模策略,构建统一的表征空间,使模型能够无需额外任务间微调,即可动态适应不同模态与任务需求。此外,本方法引入自适应模态交互(Adaptive Modality Interaction, AMI)模块,通过生成可学习的令牌(learnable tokens)高效实现跨模态信息交互。在五个具有代表性的多模态数据集(RGBT234、LasHeR、VisEvent、DepthTrack 和 VOT-RGBD2022)上的实验结果表明,APTrack不仅显著优于现有的先进统一多模态跟踪器,更在性能上超越了专为特定多模态任务设计的跟踪方法。

自适应感知的统一视觉多模态目标跟踪 | 最新论文 | HyperAI超神经