
摘要
当前的一阶段视频实例分割网络存在两大局限性:其一,卷积特征既未与锚框(anchor boxes)对齐,也未与真实标注框(ground-truth bounding boxes)对齐,导致掩码对空间位置的敏感性下降;其二,视频被直接划分为独立帧进行帧级实例分割,忽视了相邻帧之间的时序相关性。为解决上述问题,本文提出一种简单而有效的单阶段视频实例分割框架——STMask,该框架通过空间校准与时间融合机制实现性能提升。为实现特征与真实标注框的空间对齐,我们首先在真实标注框周围预测回归后的边界框,并从中提取特征用于帧级实例分割。为进一步挖掘视频帧间的时序相关性,我们引入一个时序融合模块,将每帧的实例掩码信息传递至其相邻帧,从而增强模型对运动模糊、部分遮挡以及异常物体与相机相对姿态等复杂场景的处理能力。在YouTube-VIS验证集上的实验结果表明,采用ResNet-50和ResNet-101作为主干网络的STMask分别取得了33.5%和36.8%的掩码平均精度(mask AP),同时在视频实例分割任务上分别达到28.6 FPS和23.4 FPS的推理速度。相关代码已开源,访问地址为:https://github.com/MinghanLi/STMask。