16 天前

通过对比学习统一视觉与视觉-语言跟踪

Yinchao Ma, Yuyang Tang, Wenfei Yang, Tianzhu Zhang, Jinpeng Zhang, Mengxue Kang
通过对比学习统一视觉与视觉-语言跟踪
摘要

单目标跟踪旨在根据不同的模态参考信息,在视频序列中定位目标对象,这些参考信息包括初始边界框(BBOX)、自然语言(NL),或两者结合(NL+BBOX)。由于不同模态之间存在语义鸿沟,现有大多数跟踪器仅针对单一或部分参考设置进行设计,且在特定模态上过度专业化。与此不同,本文提出一种统一的跟踪框架——UVLTrack,能够以相同的模型参数同时处理三种参考设置(BBOX、NL、NL+BBOX)。所提出的UVLTrack具备多项优势:首先,设计了一种模态统一的特征提取器,实现视觉与语言特征的联合学习,并引入多模态对比损失,将视觉与语言特征对齐至统一的语义空间;其次,提出一种模态自适应的边界框头(box head),能够充分利用目标参考信息,动态地从视频上下文中挖掘不断变化的场景特征,并以对比方式区分目标,从而在不同参考设置下均实现稳健的性能表现。大量实验结果表明,UVLTrack在七个视觉跟踪数据集、三个视觉-语言跟踪数据集以及三个视觉定位数据集上均取得了优异的性能。代码与模型将开源至 https://github.com/OpenSpaceAI/UVLTrack。

通过对比学习统一视觉与视觉-语言跟踪 | 最新论文 | HyperAI超神经