11 天前
基于指代表达的视频对象分割的分层交互网络
{Philip Torr, Hengshuang Zhao, Luca Bertinetto, Yansong Tang, Zhao Yang}

摘要
本文研究了基于指代表达的视频目标分割(Video Object Segmentation from Referring Expressions, VOSRE)问题。传统方法通常基于语言特征与视觉编码器顶层提取的视觉特征进行多模态融合,这种做法限制了模型在不同语义和空间粒度层次上对多模态输入的表征能力。为解决这一问题,本文提出一种端到端的分层交互网络(Hierarchical Interaction Network, HINet),用于VOSRE任务。该模型利用视觉编码器生成的特征金字塔,构建多层级的多模态特征表示,从而在不同层次上更灵活地刻画各类语言概念(如对象属性与类别)。此外,我们进一步从光流输入中提取运动目标信号,并通过运动门控机制将其作为补充线索,以增强目标区域的突出性并抑制背景干扰。与以往方法不同,该策略使模型能够在无需整段视频作为输入的前提下实现在线预测。尽管结构简洁,所提出的HINet在DAVIS-16、DAVIS-17和J-HMDB数据集上的VOSRE任务中均显著优于现有最先进方法,充分验证了其有效性与通用性。