2 个月前
DVIS:解耦视频实例分割框架
Tao Zhang; Xingye Tian; Yu Wu; Shunping Ji; Xuebo Wang; Yuan Zhang; Pengfei Wan

摘要
视频实例分割(VIS)是一项具有广泛应用的重要任务,包括自动驾驶和视频编辑。现有的方法在处理现实世界中的复杂和长视频时往往表现不佳,主要归因于两个因素。首先,离线方法受到紧密耦合建模范式的限制,该范式将所有帧视为同等重要,并忽略了相邻帧之间的相互依赖关系。因此,在长时间的时间对齐过程中引入了过多的噪声。其次,在线方法未能充分利用时间信息。为了解决这些挑战,我们提出了一种解耦策略,将VIS分解为三个独立的子任务:分割、跟踪和精炼。解耦策略的有效性取决于两个关键要素:1)通过逐帧关联在跟踪过程中实现精确的长时间对齐结果;2)在精炼过程中基于上述准确的对齐结果有效利用时间信息。我们引入了一种新颖的引用跟踪器和时间精炼器来构建解耦VIS框架(DVIS)。DVIS在VIS和VPS任务中均取得了新的最先进性能,在OVIS和VIPSeg数据集上分别超过了当前最先进方法7.3 AP和9.6 VPQ,这两个数据集是最具挑战性和现实性的基准测试。此外,得益于解耦策略,引用跟踪器和时间精炼器非常轻量级(仅占分割器FLOPs的1.69%),使得可以在单个11G内存的GPU上高效进行训练和推理。代码已发布在\href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS}。