16 天前

关于在视频目标分割中采用3D卷积的论证

Sabarinath Mahadevan, Ali Athar, Aljoša Ošep, Sebastian Hennen, Laura Leal-Taixé, Bastian Leibe
关于在视频目标分割中采用3D卷积的论证
摘要

视频中的目标分割任务通常通过使用标准的2D卷积网络分别处理外观信息与运动信息,随后对两类信息进行学习融合来完成。相比之下,3D卷积网络在视频分类任务中已取得成功应用,但在涉及视频密集像素级理解的任务中,其表现相较于2D卷积网络仍显不足,性能也落后于前述方法。在本研究中,我们证明了3D卷积网络能够有效应用于密集视频预测任务,例如显著目标分割。为此,我们提出了一种完全由3D卷积构成的简单而高效的编码器-解码器网络架构,该架构可采用标准交叉熵损失函数进行端到端训练。为此,我们设计了一种高效的3D编码器,并提出了一种新型3D解码器结构,其中包含创新的3D全局卷积层(3D Global Convolution layers)和3D精炼模块(3D Refinement modules)。在DAVIS'16无监督、FBMS以及ViSal数据集的基准测试中,我们的方法显著超越现有最先进水平,同时具备更快的推理速度。结果表明,所提出的架构能够高效学习具有表现力的时空特征,并生成高质量的视频分割掩码。相关代码与训练好的模型已公开发布于:https://github.com/sabarim/3DC-Seg。

关于在视频目标分割中采用3D卷积的论证 | 最新论文 | HyperAI超神经