2 个月前
DVIS++:改进的解耦框架用于通用视频分割
Tao Zhang; Xingye Tian; Yikang Zhou; Shunping Ji; Xuebo Wang; Xin Tao; Yuan Zhang; Pengfei Wan; Zhongyuan Wang; Yu Wu

摘要
我们提出了解耦视频分割(DVIS)框架,这是一种新颖的方法,用于解决普遍视频分割这一具有挑战性的任务,包括视频实例分割(VIS)、视频语义分割(VSS)和视频全景分割(VPS)。与以往将视频分割建模为端到端任务的方法不同,我们的方法将视频分割分解为三个级联的子任务:分割、跟踪和优化。这种解耦设计使得在复杂场景和长视频中对物体的空间-时间表示进行更简单且有效的建模成为可能。为此,我们引入了两个新的组件:指代跟踪器和时间优化器。这些组件逐帧跟踪物体,并基于预对齐的特征建模空间-时间表示。为了提高DVIS的跟踪能力,我们提出了一种去噪训练策略并引入了对比学习,从而构建了一个更加鲁棒的框架——DVIS++。此外,我们在多种设置下评估了DVIS++,包括开放词汇表和使用冻结的预训练骨干网络。通过将CLIP与DVIS++结合,我们推出了OV-DVIS++,这是首个开放词汇表的普遍视频分割框架。我们在六个主流基准数据集上进行了广泛的实验,包括VIS、VSS和VPS数据集。采用统一架构的DVIS++在这类基准测试中显著优于现有的专门方法,在闭合词汇表和开放词汇表设置下均表现出色。代码:https://github.com/zhang-tao-whu/DVIS_Plus