
摘要
本文挖掘了城市场景图像的内在特性,提出了一种通用的附加模块——高度驱动注意力网络(Height-Driven Attention Networks, HANet),用于提升城市场景图像的语义分割性能。该模块根据像素的垂直位置,有选择性地强调具有信息量的特征或类别。在城市场景图像中,不同水平分割区域内的像素级类别分布存在显著差异。尽管城市场景图像具有独特的视觉特征,但现有的大多数语义分割网络在架构设计中并未充分反映这些特性。所提出的网络架构通过引入对这些特性的利用能力,有效提升了对城市场景数据集的处理效果。我们在两个数据集上验证了多种语义分割模型在引入HANet后均表现出一致的性能提升(mIoU)。广泛的定量分析表明,将本模块集成到现有模型中操作简便且成本低廉。在基于ResNet-101的分割模型中,本方法在Cityscapes基准测试上取得了显著领先的新SOTA(State-of-the-Art)性能。此外,通过可视化与解释注意力图,我们进一步证实了所提模型与城市场景中实际观察到的规律具有高度一致性。相关代码与训练好的模型已公开发布于:https://github.com/shachoi/HANet