2 个月前

单模型与任意模态视频目标跟踪

Zongwei Wu; Jilai Zheng; Xiangxuan Ren; Florin-Alexandru Vasluianu; Chao Ma; Danda Pani Paudel; Luc Van Gool; Radu Timofte
单模型与任意模态视频目标跟踪
摘要

在视频目标跟踪领域,深度、热成像或事件数据等辅助模态已成为补充RGB跟踪器的宝贵资源。实际上,大多数现有的RGB跟踪器学习了一组参数,用于跨数据集和应用的使用。然而,对于多模态跟踪而言,类似的单模型统一方法面临多个挑战。这些挑战源于输入的固有异质性——每种模态具有特定的表示形式、多模态数据集的稀缺性以及并非所有时间都存在所有模态。在这项工作中,我们引入了Un-Track,一种适用于任何模态的统一跟踪器,其具有一组参数。为了处理任意模态,我们的方法通过低秩分解和重构技术学习它们的共同潜在空间。更重要的是,我们仅使用RGB-X对来学习这个共同潜在空间。这种独特的共享表示无缝地将所有模态结合在一起,使得有效的统一成为可能,并且能够在单一基于Transformer的架构中适应任何缺失的模态。我们的Un-Track通过简单的但高效的提示策略,在DepthTrack数据集上实现了+8.1绝对F分数提升,仅增加了+2.14(超过21.50)GFLOPs和+6.6M(超过93M)参数。在五个不同模态的基准数据集上的广泛对比实验表明,Un-Track不仅超越了最先进的统一跟踪器,还超过了特定模态的跟踪器,验证了我们的方法的有效性和实用性。源代码已公开发布在https://github.com/Zongwei97/UnTrack。

单模型与任意模态视频目标跟踪 | 最新论文 | HyperAI超神经