
摘要
我们介绍了ARTrackV2,该系统集成了跟踪领域的两个关键方面:确定目标对象的位置(定位)和描述其在视频帧间的外观(外观分析)。在此前版本的基础上,ARTrackV2通过引入一个统一的生成框架,以自回归的方式“读取”目标对象的轨迹并“重述”其外观。这种方法促进了时间连续性的建模方法,该方法在先前估计的引导下,对运动和视觉特征的联合演化进行建模。此外,ARTrackV2以其高效性和简洁性脱颖而出,摒弃了效率较低的帧内自回归以及用于外观更新的手动调整参数。尽管设计简单,ARTrackV2在主流基准数据集上仍达到了最先进的性能,并展示了显著的效率提升。特别是在GOT-10k数据集上,ARTrackV2取得了79.5%的AO分数,在TrackingNet数据集上取得了86.1%的AUC分数,同时比ARTrack快3.6倍。代码将对外发布。