11 天前

用于无监督视频对象分割的深度传输网络

{Bo Liu, Qingshan Liu, Dong Liu, Zicheng Zhao, Kaihua Zhang}
用于无监督视频对象分割的深度传输网络
摘要

当前主流的无监督视频对象分割方法通常采用双流网络融合RGB帧与光流信息。然而,这类方法难以有效处理各输入模态中的干扰噪声,这些噪声可能显著降低模型性能。为此,我们提出通过最优结构匹配机制,在建立输入模态间对应关系的同时抑制干扰信号。针对每一视频帧,我们从RGB图像和光流中提取密集的局部特征,并将其视为两种复杂的结构化表示。随后,利用Wasserstein距离计算全局最优传输流,将一个模态的特征传输至另一模态,其中每条传输流的大小反映了两个局部特征之间的对齐程度。为将该结构匹配机制嵌入双流网络以实现端到端训练,我们对输入代价矩阵进行空间块分解,并设计了一种可微分的长短期Sinkhorn模块,该模块由长距离Sinkhorn层与短距离Sinkhorn层构成。我们将该模块集成至专用的双流网络中,提出名为TransportNet的模型。实验结果表明,通过运动与外观特征的对齐,我们的方法在多个主流视频对象分割数据集上取得了当前最优的性能。

用于无监督视频对象分割的深度传输网络 | 最新论文 | HyperAI超神经