13 天前

基于自然语言的更灵活且更精确的目标跟踪:算法与基准

Xiao Wang, Xiujun Shu, Zhipeng Zhang, Bo Jiang, Yaowei Wang, Yonghong Tian, Feng Wu
基于自然语言的更灵活且更精确的目标跟踪:算法与基准
摘要

基于自然语言描述的跟踪(Tracking by Natural Language Specification)是一项新兴的研究方向,旨在根据目标物体的语言描述,在视频序列中准确定位该目标。与传统的基于边界框(Bounding Box, BBox)的跟踪方法相比,该范式通过引入高层语义信息来引导目标跟踪,有效缓解了BBox描述中存在的歧义性问题,并有机地融合了局部与全局搜索机制。这些优势有望在实际应用场景中实现更加灵活、鲁棒且精准的跟踪性能。然而,现有的基于自然语言初始化的跟踪方法大多是在为BBox跟踪任务设计的基准数据集上进行开发与评估,难以真实反映基于语言描述跟踪的潜力与能力。为此,本文提出一个专为“基于语言的跟踪”任务设计的新基准——TNL2K,包含大规模数据集及强而多样的基线方法。具体而言,我们收集了2000段视频序列(总计1,244,340帧,涵盖663个英文描述词),并按1300/700的比例划分为训练集与测试集。针对每一段视频,我们进行密集标注:在每帧中提供一句英文语言描述,并标注目标物体的对应边界框。此外,我们在TNL2K基准中引入了两项新的挑战任务,以推动该领域的发展:对抗样本(adversarial samples)与模态切换(modality switch)。为支持后续研究,我们提出一种基于自适应局部-全局搜索机制的强基线方法,供未来工作进行对比与改进。我们相信,该基准的发布将显著推动自然语言引导跟踪相关研究的深入发展。