
摘要
我们提出了一种实时、高质量的半监督视频对象分割算法。该算法的精度与目前最准确但计算耗时的在线学习模型相当,而其运行速度则接近最快的模板匹配方法(尽管后者精度略低)。模型的核心组件是一个新颖的全局上下文模块,能够有效整合并传播整个视频中的信息。与以往仅依赖单帧或少数几帧来指导当前帧分割的方法不同,该全局上下文模块利用了所有历史帧的信息。不同于此前最先进的时空记忆网络在每个时空位置缓存记忆的方式,本模块采用固定大小的特征表示,因此无论视频长度如何,其内存占用始终保持恒定,显著降低了内存和计算开销。得益于这一创新模块,我们的模型在标准基准测试中实现了顶尖性能,同时保持实时运行速度。