12 天前
基于运动-外观协同注意力的零样本视频对象分割
{Xiaoxing Zhang, Shuo Wang, Huchuan Lu, Jinqing Qi, Lu Zhang, Shu Yang}

摘要
如何有效融合外观与运动信息以适应复杂场景,是基于光流的零样本视频对象分割领域中的一个核心问题。本文提出了一种注意力多模态协同网络(Attentive Multi-Modality Collaboration Network, AMC-Net),旨在统一利用外观与运动信息。具体而言,AMC-Net在两个阶段中融合多模态特征的鲁棒信息,并促进其协同作用。首先,我们在双边编码器分支上提出了一种多模态共注意力门(Multi-Modality Co-Attention Gate, MCG),通过门控机制构建共注意力得分,以平衡多模态特征的贡献,并抑制冗余及误导性信息。随后,我们设计了一种运动校正模块(Motion Correction Module, MCM),该模块引入视觉-运动注意力机制,通过利用外观与运动线索之间的时空对应关系,突出前景目标的特征表示。在三个公开的具有挑战性的基准数据集上的大量实验表明,所提出的AMC-Net在使用更少训练数据的情况下,仍能显著优于现有的最先进方法。