17 天前
通过多源混合采样与元学习实现事故场景的鲁棒语义分割
Xinyu Luo, Jiaming Zhang, Kailun Yang, Alina Roitberg, Kunyu Peng, Rainer Stiefelhagen

摘要
自动驾驶车辆依赖城市场景分割技术来像人类一样理解真实世界并作出相应反应。在常规基准测试中,正常场景的语义分割精度已实现显著提升。然而,现实中相当一部分交通事故涉及异常场景,例如物体形变、车辆翻覆以及突发的非预期交通行为。由于驾驶场景中哪怕微小的分割错误也可能对人类生命构成严重威胁,因此模型在事故场景下的鲁棒性成为保障智能交通系统安全性的关键因素。本文提出一种多源元学习无监督域适应框架(Multi-source Meta-learning Unsupervised Domain Adaptation, MMUDA),旨在提升分割Transformer模型在极端事故场景下的泛化能力。在MMUDA框架中,我们采用多域混合采样策略(Multi-Domain Mixed Sampling),将多源正常场景图像与目标域(异常场景)的视觉特征进行融合,从而增强训练数据的多样性与代表性。为训练模型,我们在多源设置下引入并深入研究一种元学习策略,以提升分割结果的鲁棒性。此外,我们对分割主干网络(SegFormer)进行了改进,设计了一种混合ASPP解码器(HybridASPP),融合大窗口注意力空间金字塔池化(large window attention spatial pyramid pooling)与条带池化(strip pooling)机制,以高效捕获长距离上下文依赖关系。实验结果表明,所提方法在DADA-seg基准测试上取得了46.97%的mIoU分数,较此前最先进模型提升超过7.50%。相关代码将公开发布于:https://github.com/xinyu-laura/MMUDA。