12 天前

MATNet:用于零样本视频对象分割的运动感知过渡网络

{Ran; Shen, Shunzhou; Tao, Jianwu; Wang, Tianfei; Li, Zhou, Jianbing}
摘要

本文提出了一种新颖的端到端学习神经网络——MATNet,用于零样本视频对象分割(Zero-Shot Video Object Segmentation, ZVOS)。受人类视觉注意力机制的启发,MATNet利用运动线索作为自下而上的信号,引导对物体外观的感知。为此,在双流编码器网络中引入了一种非对称注意力模块,称为运动感知过渡模块(Motion-Attentive Transition, MAT),该模块首先识别运动区域,随后引导外观学习,以捕捉物体的完整范围。通过在不同卷积层中嵌入多个MAT模块,我们的编码器结构实现了深度交错,从而在物体外观与运动信息之间建立起紧密的层级交互。这种具有生物启发性的设计被证明显著优于传统双流结构——后者通常在独立的流中分别处理运动与外观信息,容易导致对物体外观的严重过拟合。此外,我们设计了一种桥接网络,用于将多尺度时空特征映射为更加紧凑、具有判别性且对尺度敏感的表示,并将其输入到一个边界感知解码器网络中,以生成边界清晰、精度高的分割结果。我们在四个具有挑战性的公开基准数据集(DAVIS16、DAVIS17、FBMS 和 YouTube-Objects)上进行了大量定量与定性实验,结果表明,所提方法在性能上显著优于当前最先进的ZVOS方法。为进一步验证所提出时空学习框架的泛化能力,我们将MATNet拓展至另一相关任务:动态视觉注意力预测(Dynamic Visual Attention Prediction, DVAP)。在Hollywood-2与UCF-Sports两个主流数据集上的实验进一步证实了该模型的优越性。