11 天前

通过运动感知掩码传播的自监督视频对象分割

Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Ajmal Mian
通过运动感知掩码传播的自监督视频对象分割
摘要

我们提出了一种自监督的时空匹配方法——运动感知掩码传播(Motion-Aware Mask Propagation, MAMP),用于视频对象分割。MAMP 利用帧重建任务进行训练,无需依赖标注数据。在推理阶段,MAMP 从每一帧中提取高分辨率特征,并基于选定历史帧的特征及其预测掩码构建记忆库。随后,MAMP 通过我们提出的运动感知时空匹配模块,将记忆库中的掩码传播至后续帧,以有效应对快速运动和长时序匹配场景。在 DAVIS-2017 和 YouTube-VOS 数据集上的实验结果表明,MAMP 在性能上达到当前最优水平,相较于现有自监督方法展现出更强的泛化能力:在 DAVIS-2017 上平均 J&F 提升 4.2%,在 YouTube-VOS 的未见类别上平均 J&F 提升 4.85%,均优于最接近的竞争对手。此外,MAMP 的性能可与众多监督式视频对象分割方法相媲美。代码已开源,地址为:https://github.com/bo-miao/MAMP。

通过运动感知掩码传播的自监督视频对象分割 | 最新论文 | HyperAI超神经