摘要

近年来，视频实例分割（Video Instance Segmentation, VIS）领域逐渐倾向于采用在线（online）方法来建模复杂且时长较长的视频序列。然而，这类方法在遮挡和运动突变等场景下容易出现特征表示退化与噪声累积问题，带来显著挑战。尽管基于Transformer的查询传播机制展现出良好前景，但其依赖二次方复杂度的内存注意力机制，且易受上述问题影响，导致实例特征质量下降，并引发误差的级联传播。目前，此类错误的检测与纠正机制仍鲜有研究。为此，本文提出 GRAtt-VIS（Gated Residual Attention for Video Instance Segmentation），一种新型的视频实例分割框架。首先，我们引入基于Gumbel-Softmax的门控机制，用于检测当前帧中可能存在的预测错误。随后，依据该门控激活状态，从历史表示中对退化的实例特征进行修正。这种残差式结构无需额外专用记忆模块，即可持续提供与当前帧相关联的高质量实例特征。其次，我们提出一种新颖的实例间交互机制：利用门控激活结果作为掩码，对自注意力机制进行动态约束。该掩码策略能够有效抑制不具代表性的实例查询在自注意力过程中的干扰，从而保留对长期跟踪至关重要的关键信息。我们将这种结合了门控残差连接与掩码自注意力的新型结构称为 GRAtt模块，该模块可无缝集成至现有基于传播的框架中。此外，GRAtt模块显著降低了注意力计算开销，简化了动态时序建模过程。在YouTube-VIS和极具挑战性的OVIS数据集上，GRAtt-VIS均取得了当前最优的性能表现，显著超越以往方法。相关代码已开源，地址为：https://github.com/Tanveer81/GRAttVIS。

源 PDF