17 天前
MSN:用于视频实例分割的高效在线掩码选择网络
Vidit Goel, Jiachen Li, Shubhika Garg, Harsh Maheshwari, Humphrey Shi

摘要
在本工作中,我们提出了一种面向视频实例分割(Video Instance Segmentation, VIS)的创新解决方案,该方法能够自动生成实例级别的分割掩码,并在视频序列中对目标类别进行识别与跟踪。我们通过引入掩码选择网络(Mask Selection Network, MSN),以在线方式对分割分支与传播分支生成的掩码进行优化,从而有效抑制了掩码跟踪过程中噪声的累积。我们设计了一种基于局部块(patch-based)的卷积神经网络结构来实现MSN,该网络能够精确区分掩码之间细微的差异,并从中准确选择更优的掩码。此外,我们利用时间一致性特性,采用正向与反向双重处理策略作为后处理步骤,以恢复在跟踪过程中丢失的目标。所提出的框架具有良好的通用性,可适配任意现有的视频对象分割方法以完成VIS任务。在2021年YouTube-VIS挑战赛中,我们的方法取得了49.1 mAP的优异成绩,在全球超过30支参赛团队中位列第三。相关代码将公开发布于:https://github.com/SHI-Labs/Mask-Selection-Networks。