6 个月前

计算机视觉

Carl Doersch Yi Yang Mel Vecerik Dilara Gokay Ankush Gupta Yusuf Aytar Joao Carreira Andrew Zisserman

摘要

我们提出了一种名为“任意点追踪”（Tracking Any Point, TAP）的新型模型，该模型能够有效追踪视频序列中任意物理表面上任意查询点的运动轨迹。我们的方法包含两个阶段：（1）匹配阶段，独立地在每一帧中为查询点寻找合适的候选匹配点；（2）精炼阶段，基于局部相关性同时更新轨迹和查询特征。在TAP-Vid基准测试中，该模型显著优于所有基线方法，在DAVIS数据集上实现了约20%的绝对平均交并比（AJ）提升。该模型支持在长时序、高分辨率视频序列上实现快速推理，在现代GPU上，我们的实现能够实现高于实时的追踪速度，并可灵活扩展至更高分辨率的视频。基于从大规模数据集中提取的高质量轨迹，我们进一步展示了一个概念验证性的扩散模型，该模型能够从静态图像生成合理运动轨迹，从而实现逼真的动画生成。项目相关的可视化结果、源代码及预训练模型均可在我们的项目主页上获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Carl Doersch Yi Yang Mel Vecerik Dilara Gokay Ankush Gupta Yusuf Aytar Joao Carreira Andrew Zisserman

摘要

我们提出了一种名为“任意点追踪”（Tracking Any Point, TAP）的新型模型，该模型能够有效追踪视频序列中任意物理表面上任意查询点的运动轨迹。我们的方法包含两个阶段：（1）匹配阶段，独立地在每一帧中为查询点寻找合适的候选匹配点；（2）精炼阶段，基于局部相关性同时更新轨迹和查询特征。在TAP-Vid基准测试中，该模型显著优于所有基线方法，在DAVIS数据集上实现了约20%的绝对平均交并比（AJ）提升。该模型支持在长时序、高分辨率视频序列上实现快速推理，在现代GPU上，我们的实现能够实现高于实时的追踪速度，并可灵活扩展至更高分辨率的视频。基于从大规模数据集中提取的高质量轨迹，我们进一步展示了一个概念验证性的扩散模型，该模型能够从静态图像生成合理运动轨迹，从而实现逼真的动画生成。项目相关的可视化结果、源代码及预训练模型均可在我们的项目主页上获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供