HyperAIHyperAI

Command Palette

Search for a command to run...

基于Transformer的端到端视频实例分割

Yuqing Wang Zhaoliang Xu Xinlong Wang Chunhua Shen Baoshan Cheng Hao Shen Huaxia Xia

摘要

视频实例分割(Video Instance Segmentation, VIS)是一项需要在视频中同时完成目标实例的分类、分割与跟踪的任务。现有方法通常构建复杂的处理流程来应对该任务。本文提出一种基于Transformer的新框架——VisTR,将VIS任务视为一个直接的端到端并行序列解码/预测问题。给定包含多帧图像的视频片段作为输入,VisTR可直接输出视频中每个实例对应的掩码序列。其核心是一种新颖且高效的实例序列匹配与分割策略,该策略从序列整体层面进行实例的监督与分割,实现了对实例分割与跟踪任务的统一建模。VisTR将两者置于相似性学习的统一视角下,显著简化了整体流程,与现有方法有本质区别。在不依赖复杂组件的前提下,VisTR在所有现有VIS模型中实现了最快的推理速度,并在YouTube-VIS数据集上以单一模型取得了最佳性能。本文首次展示了基于Transformer的更简洁、更高效的视频实例分割框架,在保持优异准确率的同时显著提升了运行效率。我们期望VisTR能够激发未来在更多视频理解任务上的研究探索。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供