16 天前

LoSh:用于指代视频目标分割的长短期文本联合预测网络

Linfeng Yuan, Miaojing Shi, Zijie Yue, Qijun Chen
LoSh:用于指代视频目标分割的长短期文本联合预测网络
摘要

参考视频对象分割(Referring Video Object Segmentation, RVOS)旨在根据给定的文本描述,在视频片段中分割出所指的目标实例。该文本描述通常包含对目标实例外观、动作及其与其它对象之间关系的复杂描述。因此,对于RVOS模型而言,要准确捕捉视频中所有这些属性具有相当大的挑战性;事实上,模型往往更倾向于关注与动作和关系相关的视觉特征,而忽视了外观信息。这种偏差可能导致对目标实例的分割结果不完整,甚至出现错误。为解决这一问题,我们提出从原始长文本描述中提取一个以主体为中心的短文本表达。该短文本仅保留目标实例的外观相关语义信息,从而引导模型将注意力集中于目标的外观特征。在此基础上,我们让模型同时利用长文本和短文本表达进行联合预测,并引入一个“长-短文本交叉注意力模块”,以促进两种文本表达所生成特征之间的交互;同时设计了一种“长-短预测交集损失”(long-short predictions intersection loss),用于约束联合预测结果的一致性与准确性。除了在语言建模层面的改进外,我们还提出了一种前向-后向视觉一致性损失(forward-backward visual consistency loss),该损失利用光流(optical flow)将标注帧与其时间邻近帧之间的视觉特征进行空间对齐与传播,以增强时间维度上的特征一致性。我们的方法建立在两种先进的RVOS流水线之上。在A2D-Sentences、Refer-YouTube-VOS、JHMDB-Sentences和Refer-DAVIS17等多个基准数据集上的大量实验表明,所提方法取得了显著的性能提升。相关代码已开源,地址为:https://github.com/LinfengYuan1997/Losh。