11 天前

运动感知的转换用于零样本视频对象分割

Tianfei Zhou, Shunzhou Wang, Yi Zhou, Yazhou Yao, Jianwu Li, Ling Shao
运动感知的转换用于零样本视频对象分割
摘要

本文提出了一种新颖的运动感知过渡网络(Motion-Attentive Transition Network, MATNet),用于零样本视频对象分割(zero-shot video object segmentation),为利用运动信息增强时空对象表征提供了新思路。在双流编码器结构中,我们设计了一种非对称注意力模块——运动感知过渡(Motion-Attentive Transition, MAT),该模块在每个卷积阶段将外观特征转换为运动感知的表示形式。通过这一机制,编码器实现深层交织,使得对象运动与外观特征之间能够进行紧密的层级交互。相较于传统的双流架构(该架构在各流中独立处理运动与外观信息,易过度依赖外观特征而产生过拟合问题),本方法具有显著优势。此外,本文还提出了一种桥接网络(bridge network),用于融合多层级编码器特征,生成紧凑、具有判别性且对尺度敏感的特征表示,并将其输入解码器以实现最终的分割结果。在三个具有挑战性的公开基准数据集(DAVIS-16、FBMS 和 Youtube-Objects)上的大量实验表明,所提模型在性能上显著优于当前最先进的方法。

运动感知的转换用于零样本视频对象分割 | 最新论文 | HyperAI超神经