2 个月前
RoadFormer:用于RGB-法线语义道路场景解析的双工变压器模型
Jiahang Li; Yikang Zhang; Peng Yun; Guangliang Zhou; Qijun Chen; Rui Fan

摘要
近期在深度卷积神经网络领域的进展在道路场景解析方面展现出显著的潜力。然而,现有的研究主要集中在自由空间检测上,对可能影响驾驶安全和舒适性的危险道路缺陷关注较少。本文介绍了一种名为RoadFormer的新颖基于Transformer的数据融合网络,专门用于道路场景解析。RoadFormer采用双路编码器架构,从RGB图像和表面法线信息中提取异构特征。随后,这些编码后的特征被输入到一个新颖的异构特征协同模块中,以实现有效的特征融合和重新校准。像素解码器则从融合和重新校准的异构特征中学习多尺度长程依赖关系,并通过Transformer解码器生成最终的语义预测结果。此外,我们发布了SYN-UDTIRI数据集,这是首个大规模的道路场景解析数据集,包含超过10,407张RGB图像、密集深度图像以及相应的像素级注释,涵盖了不同形状和大小的自由空间和道路缺陷。我们在SYN-UDTIRI数据集以及三个公开数据集(包括KITTI道路、CityScapes和ORFD)上进行了广泛的实验评估,结果表明RoadFormer在道路场景解析方面优于所有其他最先进的网络。特别是,RoadFormer在KITTI道路基准测试中排名第一。我们的源代码、创建的数据集及演示视频已公开发布于mias.group/RoadFormer。