17 天前

Mask2Former 用于视频实例分割

Bowen Cheng, Anwesa Choudhuri, Ishan Misra, Alexander Kirillov, Rohit Girdhar, Alexander G. Schwing
Mask2Former 用于视频实例分割
摘要

我们发现,Mask2Former 在无需修改架构、损失函数甚至训练流程的情况下,也能在视频实例分割任务上达到当前最优性能。在本报告中,我们展示了通用图像分割架构可通过直接预测三维分割体积,极为自然地推广至视频分割任务。具体而言,Mask2Former 在 YouTubeVIS-2019 数据集上取得了 60.4 AP 的新最优成绩,在 YouTubeVIS-2021 数据集上达到 52.6 AP。鉴于其在图像分割任务中展现出的卓越泛化能力,我们相信 Mask2Former 同样具备处理视频语义分割与全景分割的潜力。我们期望这一成果能够使前沿视频分割研究更加易于获取,并推动学术界对通用图像与视频分割架构设计的更多关注。