2 个月前
视频息肉分割:深度学习视角
Ge-Peng Ji; Guobao Xiao; Yu-Cheng Chou; Deng-Ping Fan; Kai Zhao; Geng Chen; Luc Van Gool

摘要
我们首次在深度学习时代进行了全面的视频息肉分割(VPS)研究。多年来,由于缺乏大规模细粒度分割注释,VPS的发展并不顺利。为了解决这一问题,我们首先介绍了一个高质量的逐帧注释的VPS数据集,命名为SUN-SEG,该数据集包含来自知名SUN数据库的158,690个结肠镜检查帧。我们提供了多种类型的额外注释,包括属性、对象掩码、边界、涂鸦和多边形。其次,我们设计了一个简单但高效的基线模型,称为PNS+,该模型由一个全局编码器、一个局部编码器和归一化自注意力(NS)块组成。全局和局部编码器接收一个锚定帧和多个连续帧以提取长期和短期时空表示,这些表示随后通过两个NS块逐步更新。大量实验表明,PNS+在性能和实时推理速度(170帧/秒)方面均表现出色,使其成为VPS任务的一个有前景的解决方案。第三,我们在SUN-SEG数据集上广泛评估了13个具有代表性的息肉/对象分割模型,并提供了基于属性的比较。最后,我们讨论了几个开放性问题,并为VPS社区提出了可能的研究方向。