
摘要
语义视频分割具有挑战性,主要是因为需要处理和标注大量数据以构建准确的模型。在本文中,我们提出了一种深度的端到端可训练方法,该方法能够利用未标注数据中的信息来提高语义估计的准确性。我们的模型结合了卷积架构和时空变换器递归层,通过光流(optical flow)实现时间上的标签信息传播,并根据局部估计的不确定性自适应地进行门控。光流、识别和门控时间传播模块可以联合训练,实现端到端的训练。我们模型的时间门控递归光流传播组件可以插入任何静态语义分割架构中,将其转化为弱监督视频处理架构。我们在具有挑战性的CityScapes和CamVid数据集上进行了广泛的实验,并基于多种深度架构进行了测试,结果表明,该模型能够在几乎不增加标注成本且计算开销较小的情况下,利用未标注的时间帧与已标注帧相结合,提高视频分割的准确性和时间标签的一致性。