2 个月前

统一的序列到序列学习用于单模态和多模态视觉目标跟踪

Xin Chen; Ben Kang; Jiawen Zhu; Dong Wang; Houwen Peng; Huchuan Lu
统一的序列到序列学习用于单模态和多模态视觉目标跟踪
摘要

本文介绍了一种新的基于RGB和多模态的目标跟踪序列到序列学习框架。首先,我们提出了SeqTrack用于基于RGB的跟踪。该方法将视觉跟踪视为一个序列生成任务,以自回归的方式预测目标边界框。这与以往依赖于复杂头部网络设计(如分类头和回归头)的跟踪器不同。SeqTrack采用了基本的编码器-解码器Transformer架构。编码器利用双向Transformer进行特征提取,而解码器则通过因果Transformer自回归地生成边界框序列。损失函数为简单的交叉熵损失。其次,我们介绍了SeqTrackv2,这是一种统一的多模态跟踪任务的序列到序列框架。在SeqTrack的基础上,SeqTrackv2集成了一个统一的辅助模态接口和一组任务提示标记(task-prompt tokens),以指定不同的任务。这使得它能够使用统一的模型和参数集来处理多模态跟踪任务。这种序列学习范式不仅简化了跟踪框架,还在涵盖五个单模态和多模态跟踪任务的14个具有挑战性的基准测试中展示了优越的性能。代码和模型可在https://github.com/chenxin-dlut/SeqTrackv2 获取。

统一的序列到序列学习用于单模态和多模态视觉目标跟踪 | 最新论文 | HyperAI超神经