17 天前
基于Transformer的端到端视频实例分割
Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, Huaxia Xia

摘要
视频实例分割(Video Instance Segmentation, VIS)是一项需要在视频中同时完成目标实例的分类、分割与跟踪的任务。现有方法通常构建复杂的处理流程来应对该任务。本文提出一种基于Transformer的新框架——VisTR,将VIS任务视为一个直接的端到端并行序列解码/预测问题。给定包含多帧图像的视频片段作为输入,VisTR可直接输出视频中每个实例对应的掩码序列。其核心是一种新颖且高效的实例序列匹配与分割策略,该策略从序列整体层面进行实例的监督与分割,实现了对实例分割与跟踪任务的统一建模。VisTR将两者置于相似性学习的统一视角下,显著简化了整体流程,与现有方法有本质区别。在不依赖复杂组件的前提下,VisTR在所有现有VIS模型中实现了最快的推理速度,并在YouTube-VIS数据集上以单一模型取得了最佳性能。本文首次展示了基于Transformer的更简洁、更高效的视频实例分割框架,在保持优异准确率的同时显著提升了运行效率。我们期望VisTR能够激发未来在更多视频理解任务上的研究探索。