7 天前

BootsTAP:面向任意点追踪的自举训练

Carl Doersch, Pauline Luc, Yi Yang, Dilara Gokay, Skanda Koppula, Ankush Gupta, Joseph Heyward, Ignacio Rocco, Ross Goroshin, João Carreira, Andrew Zisserman
BootsTAP:面向任意点追踪的自举训练
摘要

为了使模型具备更深入的物理与运动理解能力,使其能够感知真实场景中刚性表面的运动与形变,具有重要意义。这一任务可形式化为“任意点追踪”(Tracking-Any-Point, TAP),要求算法能够追踪视频中刚性表面上任意一点的运动轨迹,且在空间和时间上可能具有高密度的采样。目前,TAP任务的大规模真实标注训练数据仅存在于仿真环境中,而现有仿真数据在物体种类和运动模式方面仍存在较大局限性。在本工作中,我们展示了如何利用大规模、未标注且未经筛选的真实世界数据,在几乎不改变模型架构的前提下,显著提升TAP模型的性能。我们采用自监督的师生协同(self-supervised student-teacher)训练框架,有效利用真实场景中的无标注视频数据进行模型优化。实验结果表明,所提方法在TAP-Vid基准测试中达到当前最优水平,显著超越此前的性能记录:例如,TAP-Vid-DAVIS的准确率从61.3%提升至67.4%,TAP-Vid-Kinetics从57.2%提升至62.5%。更多可视化结果请参见项目主页:https://bootstap.github.io/

BootsTAP:面向任意点追踪的自举训练 | 最新论文 | HyperAI超神经