16 天前
TAPIR:通过帧内初始化与时间精炼实现任意点追踪
Carl Doersch, Yi Yang, Mel Vecerik, Dilara Gokay, Ankush Gupta, Yusuf Aytar, Joao Carreira, Andrew Zisserman

摘要
我们提出了一种名为“任意点追踪”(Tracking Any Point, TAP)的新型模型,该模型能够有效追踪视频序列中任意物理表面上任意查询点的运动轨迹。我们的方法包含两个阶段:(1)匹配阶段,独立地在每一帧中为查询点寻找合适的候选匹配点;(2)精炼阶段,基于局部相关性同时更新轨迹和查询特征。在TAP-Vid基准测试中,该模型显著优于所有基线方法,在DAVIS数据集上实现了约20%的绝对平均交并比(AJ)提升。该模型支持在长时序、高分辨率视频序列上实现快速推理,在现代GPU上,我们的实现能够实现高于实时的追踪速度,并可灵活扩展至更高分辨率的视频。基于从大规模数据集中提取的高质量轨迹,我们进一步展示了一个概念验证性的扩散模型,该模型能够从静态图像生成合理运动轨迹,从而实现逼真的动画生成。项目相关的可视化结果、源代码及预训练模型均可在我们的项目主页上获取。