6 个月前

计算机视觉

Yizhuo Zhang Zhirong Wu Houwen Peng Stephen Lin

摘要

半监督视频对象分割旨在给定第一帧中的掩码情况下，将目标对象从视频序列中分离出来。当前主流方法通常依赖于在其他领域（如光流估计、实例分割）训练的附加模块，因此其性能难以与其他方法在公平条件下进行比较。为解决这一问题，我们提出了一种简单而强大的归纳式方法，该方法无需额外模块、外部数据集或专门的网络结构设计。我们的方法采用标签传播机制，基于嵌入空间中的特征相似性将像素标签向前传递。与现有传播方法不同，我们的方法以整体性方式传播时间信息，能够充分考虑目标对象的长期外观变化。此外，该方法计算开销极低，运行速度可达约37帧每秒（fps）。仅使用标准ResNet50作为主干网络的单一模型，在DAVIS 2017验证集上取得了72.3的综合得分，在测试集上达到63.1的得分。这一简单、高效且性能优越的方法可作为未来研究的坚实基线。代码与模型已开源，详见：\url{https://github.com/microsoft/transductive-vos.pytorch}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Yizhuo Zhang Zhirong Wu Houwen Peng Stephen Lin

摘要

半监督视频对象分割旨在给定第一帧中的掩码情况下，将目标对象从视频序列中分离出来。当前主流方法通常依赖于在其他领域（如光流估计、实例分割）训练的附加模块，因此其性能难以与其他方法在公平条件下进行比较。为解决这一问题，我们提出了一种简单而强大的归纳式方法，该方法无需额外模块、外部数据集或专门的网络结构设计。我们的方法采用标签传播机制，基于嵌入空间中的特征相似性将像素标签向前传递。与现有传播方法不同，我们的方法以整体性方式传播时间信息，能够充分考虑目标对象的长期外观变化。此外，该方法计算开销极低，运行速度可达约37帧每秒（fps）。仅使用标准ResNet50作为主干网络的单一模型，在DAVIS 2017验证集上取得了72.3的综合得分，在测试集上达到63.1的得分。这一简单、高效且性能优越的方法可作为未来研究的坚实基线。代码与模型已开源，详见：\url{https://github.com/microsoft/transductive-vos.pytorch}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供