17 天前

DeVIS:让可变形Transformer在视频实例分割中发挥作用

Adrià Caelles, Tim Meinhardt, Guillem Brasó, Laura Leal-Taixé
DeVIS:让可变形Transformer在视频实例分割中发挥作用
摘要

视频实例分割(Video Instance Segmentation, VIS)旨在视频序列中联合完成多对象检测、跟踪与分割任务。以往的VIS方法在架构设计上沿袭了这些子任务的分离特性,因而未能实现真正的端到端联合求解。近年来,Transformer架构为将整个VIS任务统一建模为单一的集合预测问题提供了可能。然而,现有基于Transformer的方法普遍存在二次方复杂度问题,导致训练时间长、内存消耗高,并且通常仅处理单尺度特征图。可变形注意力机制(Deformable Attention)提供了一种更高效的替代方案,但其在时序建模或分割任务中的应用尚未得到充分探索。在本工作中,我们提出Deformable VIS(DeVIS),一种充分利用可变形Transformer在效率与性能方面优势的VIS方法。为在多帧间联合推理所有VIS子任务,我们设计了具有实例感知能力的时序多尺度可变形注意力机制。此外,我们引入了一种新型图像与视频实例分割头,能够融合多尺度特征,并结合多线索片段跟踪策略,实现近实时的视频处理。实验结果表明,DeVIS显著降低了内存占用与训练时间,同时在YouTube-VIS 2021和更具挑战性的OVIS数据集上均取得了当前最优的性能表现。代码已开源,地址为:https://github.com/acaelles97/DeVIS。