13 天前

用于压缩视频指代对象分割的多注意力网络

Weidong Chen, Dexiang Hong, Yuankai Qi, Zhenjun Han, Shuhui Wang, Laiyun Qing, Qingming Huang, Guorong Li
用于压缩视频指代对象分割的多注意力网络
摘要

指代视频目标分割旨在对给定语言表达所指代的物体进行分割。现有方法通常需要先将压缩视频码流解码为RGB帧,再进行分割,这一过程显著增加了计算与存储开销,最终导致推理速度下降。这在计算资源受限的实际应用场景(如自动驾驶汽车和无人机)中严重制约了该技术的部署与应用。为缓解这一问题,本文探索在压缩视频原始数据流上执行指代目标分割任务,即直接在压缩域内完成分割。除了视频指代目标分割任务本身固有的挑战外,从压缩视频中提取具有判别性的表示也极具难度。为此,本文提出一种多注意力网络(Multi-Attention Network),包含双路径双注意力模块与基于查询的跨模态Transformer模块。具体而言,双路径双注意力模块旨在从三种模态的压缩数据中提取有效特征:I帧、运动矢量(Motion Vector)和残差(Residual)。基于查询的跨模态Transformer首先建模语言与视觉模态之间的关联,随后利用融合后的多模态特征引导对象查询,生成具有内容感知能力的动态卷积核,并预测最终的分割掩码。与以往方法不同,本文仅学习单一卷积核,从而避免了现有方法中复杂的后处理掩码匹配步骤。在三个具有挑战性的数据集上进行的大量实验表明,所提方法在性能上显著优于多个针对RGB数据设计的先进方法。代码已开源,地址为:https://github.com/DexiangHong/MANet。