
摘要
参考视频对象分割(RVOS)旨在根据文本描述对视频中的对象进行分割,这需要整合多模态信息和感知时间动态。Segment Anything Model 2(SAM 2)在各种视频分割任务中表现出色。然而,将其应用于离线RVOS时,面临着将文本转化为有效提示的挑战以及缺乏全局上下文意识的问题。本文提出了一种新颖的RVOS框架,称为MPG-SAM 2,以解决这些挑战。具体而言,MPG-SAM 2采用统一的多模态编码器来联合编码视频和文本特征,生成语义对齐的视频和文本嵌入向量,以及多模态类别标记。掩码先验生成器利用视频嵌入向量和类别标记创建目标对象和全局上下文的伪掩码。这些掩码作为密集提示输入到提示编码器中,而多模态类别标记则作为稀疏提示,共同生成SAM 2所需的准确提示。为了为在线SAM 2提供全局视角,我们引入了分层全局历史聚合器,该聚合器允许SAM 2在像素级和对象级上聚合目标对象的全局和历史信息,从而增强目标表示并提高时间一致性。广泛的实验结果表明,在多个RVOS基准测试中,MPG-SAM 2优于其他方法,并验证了我们所提出的模块的有效性。