6 个月前

计算机视觉

计算机视觉

Yuqing Wang Zhaoliang Xu Xinlong Wang Chunhua Shen Baoshan Cheng Hao Shen Huaxia Xia

摘要

视频实例分割（Video Instance Segmentation, VIS）是一项需要在视频中同时完成目标实例的分类、分割与跟踪的任务。现有方法通常构建复杂的处理流程来应对该任务。本文提出一种基于Transformer的新框架——VisTR，将VIS任务视为一个直接的端到端并行序列解码/预测问题。给定包含多帧图像的视频片段作为输入，VisTR可直接输出视频中每个实例对应的掩码序列。其核心是一种新颖且高效的实例序列匹配与分割策略，该策略从序列整体层面进行实例的监督与分割，实现了对实例分割与跟踪任务的统一建模。VisTR将两者置于相似性学习的统一视角下，显著简化了整体流程，与现有方法有本质区别。在不依赖复杂组件的前提下，VisTR在所有现有VIS模型中实现了最快的推理速度，并在YouTube-VIS数据集上以单一模型取得了最佳性能。本文首次展示了基于Transformer的更简洁、更高效的视频实例分割框架，在保持优异准确率的同时显著提升了运行效率。我们期望VisTR能够激发未来在更多视频理解任务上的研究探索。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Yuqing Wang Zhaoliang Xu Xinlong Wang Chunhua Shen Baoshan Cheng Hao Shen Huaxia Xia

摘要

视频实例分割（Video Instance Segmentation, VIS）是一项需要在视频中同时完成目标实例的分类、分割与跟踪的任务。现有方法通常构建复杂的处理流程来应对该任务。本文提出一种基于Transformer的新框架——VisTR，将VIS任务视为一个直接的端到端并行序列解码/预测问题。给定包含多帧图像的视频片段作为输入，VisTR可直接输出视频中每个实例对应的掩码序列。其核心是一种新颖且高效的实例序列匹配与分割策略，该策略从序列整体层面进行实例的监督与分割，实现了对实例分割与跟踪任务的统一建模。VisTR将两者置于相似性学习的统一视角下，显著简化了整体流程，与现有方法有本质区别。在不依赖复杂组件的前提下，VisTR在所有现有VIS模型中实现了最快的推理速度，并在YouTube-VIS数据集上以单一模型取得了最佳性能。本文首次展示了基于Transformer的更简洁、更高效的视频实例分割框架，在保持优异准确率的同时显著提升了运行效率。我们期望VisTR能够激发未来在更多视频理解任务上的研究探索。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于Transformer的端到端视频实例分割 | 论文 | HyperAI超神经