2 个月前

模块化交互式视频对象分割:从交互到掩模、传播及差异感知融合

Cheng, Ho Kei ; Tai, Yu-Wing ; Tang, Chi-Keung
模块化交互式视频对象分割:从交互到掩模、传播及差异感知融合
摘要

我们提出了一种模块化交互式视频对象分割(Modular interactive VOS, MiVOS)框架,该框架将交互到掩模和掩模传播解耦,从而提高了泛化能力和性能。交互模块和传播模块分别训练,交互模块将用户交互转换为对象掩模,然后通过我们的传播模块使用一种新颖的前$k$过滤策略读取时空记忆来实现时间上的传播。为了有效考虑用户的意图,我们提出了一种新颖的差异感知模块,该模块学习如何在每次交互前后适当地融合掩模,这些掩模通过利用时空记忆与目标帧对齐。我们在DAVIS数据集上以不同的用户交互形式(例如,涂鸦、点击)对我们的方法进行了定性和定量评估,结果表明我们的方法在需要较少帧交互的情况下优于当前最先进的算法,并且具有泛化到不同类型的用户交互的优势。我们贡献了一个大规模的合成VOS数据集,包含480万帧的像素级精确分割,并附带源代码以促进未来的研究。

模块化交互式视频对象分割:从交互到掩模、传播及差异感知融合 | 最新论文 | HyperAI超神经