8 天前

更强、更少、更优：利用视觉基础模型实现领域泛化的语义分割

Zhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma, Tianle Liu, Pengyang Ling, Ben Wang, Huaian Chen, Jinjin Zheng

摘要

在本文中，我们首先评估并充分利用各类视觉基础模型（Vision Foundation Models, VFMs）在领域泛化语义分割（Domain Generalized Semantic Segmentation, DGSS）任务中的潜力。受“利用更强的预训练模型并以更少的可训练参数实现更优泛化能力”这一动机的驱动，我们提出了一种稳健的微调方法——Rein，该方法能够以参数高效的方式挖掘VFMs在DGSS任务中的潜力。Rein基于一组可训练的令牌（trainable tokens）构建，每个令牌与不同的图像实例相关联，能够精确地对骨干网络中每一层的特征图进行细化，并将其传递至下一层。这一过程在单张图像内为不同类别生成多样化的特征优化结果。得益于极少量的可训练参数，Rein能够高效地微调VFMs以应对DGSS任务，其性能甚至出人意料地超越了全参数微调方法。在多种设置下的大量实验表明，Rein显著优于当前最先进的方法。尤为突出的是，仅在冻结的骨干网络中引入额外1%的可训练参数，Rein在Cityscapes数据集上便实现了78.4%的平均交并比（mIoU），且无需访问任何真实的城市场景数据集。代码已开源，地址为：https://github.com/w1oves/Rein.git。