11 天前
语言桥接的时空交互用于指代视频目标分割
Zihan Ding, Tianrui Hui, Junshi Huang, Xiaoming Wei, Jizhong Han, Si Liu

摘要
参考视频对象分割旨在根据自然语言表达中提及的对象,在视频中预测其前景标签。以往的方法通常依赖于3D卷积网络(3D ConvNets),或引入额外的2D卷积网络作为编码器,以提取混合的时空特征。然而,这些方法由于在解码阶段才发生延迟且隐式的时空交互,容易导致空间错位或引入虚假干扰项。为解决上述局限,我们提出一种语言桥接双路迁移(Language-Bridged Duplex Transfer, LBDT)模块,利用语言作为中间桥梁,在编码阶段更早地实现显式且自适应的时空交互。具体而言,该模块在时间编码器、参考词与空间编码器之间执行跨模态注意力机制,以聚合并传递与语言相关的运动与外观信息。此外,我们在解码阶段进一步提出一种双边通道激活(Bilateral Channel Activation, BCA)模块,通过通道级激活机制进一步去噪并突出时空一致性特征。大量实验表明,所提方法在四个主流基准数据集上均达到新的最先进性能,在A2D Sentences和J-HMDB Sentences数据集上分别取得了6.8%和6.9%的绝对平均精度(AP)提升,同时计算开销仅为先前方法的约1/7。