11 天前

基于语言查询的视频角色分割的协作时空建模

Tianrui Hui, Shaofei Huang, Si Liu, Zihan Ding, Guanbin Li, Wenguan Wang, Jizhong Han, Fei Wang
基于语言查询的视频角色分割的协作时空建模
摘要

语言查询视频角色分割旨在预测目标帧中执行自然语言查询所描述动作的角色的像素级掩码。现有方法通常在视频片段上采用3D卷积神经网络(3D CNN)作为通用编码器,以提取目标帧的混合时空特征。尽管3D卷积有助于识别执行查询动作的角色,但其不可避免地会引入相邻帧的时空信息错位,从而干扰目标帧的特征表示,导致分割结果不准确。为此,我们提出一种协同的时空编码器-解码器框架:在视频片段上使用3D时空编码器以识别查询动作,在目标帧上使用2D空间编码器以实现对查询角色的精确分割。在解码器中,我们设计了一种语言引导特征选择(Language-Guided Feature Selection, LGFS)模块,可灵活融合来自两个编码器的空间与时间特征。此外,我们还提出一种跨模态自适应调制(Cross-Modal Adaptive Modulation, CMAM)模块,用于在两个编码器的每一阶段动态重组与空间和时间相关联的语言特征,实现多模态特征的高效交互。所提方法在两个主流基准上均取得了新的最先进性能,且计算开销低于先前方法。

基于语言查询的视频角色分割的协作时空建模 | 最新论文 | HyperAI超神经