17 天前

空间特征校准与时间融合实现高效的一阶段视频实例分割

Minghan Li, Shuai Li, Lida Li, Lei Zhang

摘要

当前的一阶段视频实例分割网络存在两大局限性：其一，卷积特征既未与锚框（anchor boxes）对齐，也未与真实标注框（ground-truth bounding boxes）对齐，导致掩码对空间位置的敏感性下降；其二，视频被直接划分为独立帧进行帧级实例分割，忽视了相邻帧之间的时序相关性。为解决上述问题，本文提出一种简单而有效的单阶段视频实例分割框架——STMask，该框架通过空间校准与时间融合机制实现性能提升。为实现特征与真实标注框的空间对齐，我们首先在真实标注框周围预测回归后的边界框，并从中提取特征用于帧级实例分割。为进一步挖掘视频帧间的时序相关性，我们引入一个时序融合模块，将每帧的实例掩码信息传递至其相邻帧，从而增强模型对运动模糊、部分遮挡以及异常物体与相机相对姿态等复杂场景的处理能力。在YouTube-VIS验证集上的实验结果表明，采用ResNet-50和ResNet-101作为主干网络的STMask分别取得了33.5%和36.8%的掩码平均精度（mask AP），同时在视频实例分割任务上分别达到28.6 FPS和23.4 FPS的推理速度。相关代码已开源，访问地址为：https://github.com/MinghanLi/STMask。