8 个月前

摘要

本文提出了一种新颖的端到端学习神经网络——MATNet，用于零样本视频对象分割（Zero-Shot Video Object Segmentation, ZVOS）。受人类视觉注意力机制的启发，MATNet利用运动线索作为自下而上的信号，引导对物体外观的感知。为此，在双流编码器网络中引入了一种非对称注意力模块，称为运动感知过渡模块（Motion-Attentive Transition, MAT），该模块首先识别运动区域，随后引导外观学习，以捕捉物体的完整范围。通过在不同卷积层中嵌入多个MAT模块，我们的编码器结构实现了深度交错，从而在物体外观与运动信息之间建立起紧密的层级交互。这种具有生物启发性的设计被证明显著优于传统双流结构——后者通常在独立的流中分别处理运动与外观信息，容易导致对物体外观的严重过拟合。此外，我们设计了一种桥接网络，用于将多尺度时空特征映射为更加紧凑、具有判别性且对尺度敏感的表示，并将其输入到一个边界感知解码器网络中，以生成边界清晰、精度高的分割结果。我们在四个具有挑战性的公开基准数据集（DAVIS16、DAVIS17、FBMS 和 YouTube-Objects）上进行了大量定量与定性实验，结果表明，所提方法在性能上显著优于当前最先进的ZVOS方法。为进一步验证所提出时空学习框架的泛化能力，我们将MATNet拓展至另一相关任务：动态视觉注意力预测（Dynamic Visual Attention Prediction, DVAP）。在Hollywood-2与UCF-Sports两个主流数据集上的实验进一步证实了该模型的优越性。

源 PDF 查看代码