12 天前

全天候语义分割的内在与外在属性交互学习

{Theo Gevers, ShaoDi You, Qi Bi}
摘要

全天候场景的视觉外观会发生剧烈变化。现有的语义分割方法主要针对光照良好的白天场景进行设计,难以有效应对这种显著的外观变化。简单地采用领域自适应(domain adaptation)方法无法解决该问题,因为其通常学习源域与目标域之间的固定映射关系,因而对全天候场景(如从黎明到夜晚)的泛化能力有限。本文提出一种与现有方法不同的新思路,从图像表征的本质出发,认为图像外观由内在属性(如语义类别、结构)和外在属性(如光照条件)共同决定。为此,我们提出一种新颖的内在-外在交互学习策略:在空间级引导下,于学习过程中实现内在表示与外在表示的动态交互。该机制使得内在表示更加稳定,同时外在表示能够更准确地刻画环境变化。由此获得的优化图像表征对全天候场景下的像素级预测具有更强的鲁棒性。为实现上述目标,我们以端到端的方式提出了一种统一的分割网络——All-in-One Segmentation Network(AO-SegNet)。在三个真实数据集(Mapillary、BDD100K 和 ACDC)以及我们构建的合成全天候 CityScapes 数据集上进行了大规模实验。结果表明,无论在何种 CNN 或 ViT 主干网络下,所提出的 AO-SegNet 均显著优于当前最先进的方法,在所有数据集上均展现出显著的性能提升。