11 天前

先定位,再追踪:解耦指代视频目标分割中的识别与传播

Cho, Suhwan, Lee, Seunghoon, Lee, Minhyeok, Lee, Jungho, Lee, Sangyoun
先定位,再追踪:解耦指代视频目标分割中的识别与传播
摘要

参考视频目标分割旨在利用自然语言提示,在视频中对目标对象进行分割与跟踪。现有方法通常以高度耦合的方式融合视觉与文本特征,将多模态信息共同处理以生成每帧的掩码。然而,这种处理方式在存在多个相似物体的场景中,往往难以准确识别目标,导致目标关联模糊,并且难以保证掩码在帧间传播的一致性。为解决上述局限,本文提出一种新型解耦框架——FindTrack,该框架将目标识别与掩码传播过程分离。FindTrack 首先通过平衡分割置信度与视觉-文本对齐程度,自适应地选择关键帧,从而建立一个稳健的目标参考。随后,专用的传播模块基于该参考,对整个视频中的目标进行持续跟踪与分割。通过解耦两个核心步骤,FindTrack 有效降低了目标关联的歧义性,并显著提升了分割结果的一致性。实验表明,FindTrack 在多个公开基准数据集上均优于现有方法。

先定位,再追踪:解耦指代视频目标分割中的识别与传播 | 最新论文 | HyperAI超神经