2 个月前
通过视频传播和标签松弛改进语义分割
Yi Zhu; Karan Sapra; Fitsum A. Reda; Kevin J. Shih; Shawn Newsam; Andrew Tao; Bryan Catanzaro

摘要
语义分割需要大量的像素级注释来学习准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过合成新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,同时预测未来的标签。此外,我们还提出了一种联合传播策略,以减轻合成样本中的错位问题。我们证明,在包含合成样本的数据集上训练分割模型可以显著提高其准确性。此外,我们引入了一种新颖的边界标签松弛技术,该技术使训练对注释噪声和沿物体边界的传播伪影具有鲁棒性。我们的方法在Cityscapes数据集上达到了83.5%的mIoU(平均交并比),在CamVid数据集上达到了82.9%的mIoU。我们的单一模型在KITTI语义分割测试集上实现了72.8%的mIoU,超过了2018年ROB挑战赛的获胜作品。我们的代码和视频可以在https://nv-adlr.github.io/publication/2018-Segmentation 获取。