
摘要
尽管单目视频中的目标分割与跟踪任务已受到研究界的广泛关注,但仍存在巨大的改进空间。现有研究已充分验证了空洞卷积(dilated convolution)与可变形卷积(deformable convolution)在多种图像级分割任务中的有效性。这一成果为将此类卷积的三维(时空)扩展应用于视频级分割任务带来了合理预期,即有望带来性能提升。然而,现有文献对此方面尚未进行充分探索。本文提出了一种新型卷积结构——动态空洞卷积(Dynamic Dilated Convolutions, D2Conv3D):该方法融合空洞卷积与可变形卷积的思想,并将其推广至三维(时空)域。实验结果表明,仅通过将标准卷积替换为D2Conv3D,即可显著提升多种3D卷积神经网络架构在多个视频分割相关基准测试中的性能。此外,D2Conv3D在性能上优于现有空洞卷积与可变形卷积向三维简单扩展的直接方法。最后,我们在DAVIS 2016无监督视频目标分割基准上取得了新的最先进(state-of-the-art)结果。代码已公开发布于:https://github.com/Schmiddo/d2conv3d。