17 天前
用于视频实例分割的时序高效视觉Transformer
Shusheng Yang, Xinggang Wang, Yu Li, Yuxin Fang, Jiemin Fang, Wenyu Liu, Xun Zhao, Ying Shan

摘要
近期,视觉Transformer在图像级视觉识别任务中取得了巨大成功。为了有效且高效地建模视频片段中的关键时序信息,本文提出了一种时序高效视觉Transformer(Temporally Efficient Vision Transformer, TeViT),用于视频实例分割(Video Instance Segmentation, VIS)。与以往基于Transformer的VIS方法不同,TeViT几乎完全摒弃了卷积操作,其架构由一个Transformer主干网络和一个基于查询的视频实例分割头组成。在主干阶段,我们提出了一种近乎无参数的“消息传递位移”(messenger shift)机制,用于早期融合时序上下文信息;在头部阶段,我们设计了一种参数共享的时空查询交互机制,以建立视频实例与查询之间的唯一对应关系。因此,TeViT能够充分挖掘帧级与实例级的时序上下文信息,在几乎不增加额外计算开销的前提下,展现出强大的时序建模能力。在三个广泛采用的VIS基准数据集——YouTube-VIS-2019、YouTube-VIS-2021和OVIS上,TeViT均取得了当前最优的性能表现,并保持了较高的推理速度,例如在YouTube-VIS-2019上达到46.6 AP(平均精度)与68.9 FPS(每秒帧数)。代码已开源,地址为:https://github.com/hustvl/TeViT。