
摘要
我们提出ARTrack,一种用于视觉目标跟踪的自回归框架。ARTrack将跟踪任务建模为坐标序列的解释问题,通过逐步估计目标轨迹,其中当前的估计结果由先前状态推导而来,同时又会影响后续的轨迹序列。这种时间自回归的建模方式能够有效捕捉轨迹在时序上的演化过程,从而在帧间持续追踪目标,显著优于仅关注单帧定位精度的传统模板匹配类跟踪器。ARTrack结构简洁直接,无需定制化的定位头或后处理步骤。尽管架构简单,ARTrack在主流基准数据集上仍取得了当前最优的跟踪性能。
我们提出ARTrack,一种用于视觉目标跟踪的自回归框架。ARTrack将跟踪任务建模为坐标序列的解释问题,通过逐步估计目标轨迹,其中当前的估计结果由先前状态推导而来,同时又会影响后续的轨迹序列。这种时间自回归的建模方式能够有效捕捉轨迹在时序上的演化过程,从而在帧间持续追踪目标,显著优于仅关注单帧定位精度的传统模板匹配类跟踪器。ARTrack结构简洁直接,无需定制化的定位头或后处理步骤。尽管架构简单,ARTrack在主流基准数据集上仍取得了当前最优的跟踪性能。