17 天前
语义流:快速且准确的场景解析
Xiangtai Li, Ansheng You, Zhen Zhu, Houlong Zhao, Maoke Yang, Kuiyuan Yang, Yunhai Tong

摘要
本文致力于设计一种高效的方法,以实现快速且精确的场景解析。提升性能的常用策略是获取具有强语义表征能力的高分辨率特征图。目前广泛采用的两种方法——空洞卷积(atrous convolutions)和特征金字塔融合(feature pyramid fusion),分别存在计算开销大或效果有限的问题。受视频相邻帧间运动对齐中光流(Optical Flow)思想的启发,我们提出了一种流对齐模块(Flow Alignment Module, FAM),用于学习相邻层级特征图之间的语义流(Semantic Flow),从而高效、准确地将高层语义特征广播至高分辨率特征图中。此外,将该模块集成至通用的特征金字塔结构后,即使在轻量级主干网络(如ResNet-18)上,其性能也优于其他实时场景解析方法。我们在多个具有挑战性的数据集上进行了大量实验,包括Cityscapes、PASCAL Context、ADE20K和CamVid。特别地,我们的网络是首个在Cityscapes数据集上实现80.4% mIoU(平均交并比)的同时保持26 FPS帧率的方法。代码已开源,地址为:\url{https://github.com/lxtGH/SFSegNets}。