8 天前

更强、更少、更优:利用视觉基础模型实现领域泛化的语义分割

Zhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma, Tianle Liu, Pengyang Ling, Ben Wang, Huaian Chen, Jinjin Zheng
更强、更少、更优:利用视觉基础模型实现领域泛化的语义分割
摘要

在本文中,我们首先评估并充分利用各类视觉基础模型(Vision Foundation Models, VFMs)在领域泛化语义分割(Domain Generalized Semantic Segmentation, DGSS)任务中的潜力。受“利用更强的预训练模型并以更少的可训练参数实现更优泛化能力”这一动机的驱动,我们提出了一种稳健的微调方法——Rein,该方法能够以参数高效的方式挖掘VFMs在DGSS任务中的潜力。Rein基于一组可训练的令牌(trainable tokens)构建,每个令牌与不同的图像实例相关联,能够精确地对骨干网络中每一层的特征图进行细化,并将其传递至下一层。这一过程在单张图像内为不同类别生成多样化的特征优化结果。得益于极少量的可训练参数,Rein能够高效地微调VFMs以应对DGSS任务,其性能甚至出人意料地超越了全参数微调方法。在多种设置下的大量实验表明,Rein显著优于当前最先进的方法。尤为突出的是,仅在冻结的骨干网络中引入额外1%的可训练参数,Rein在Cityscapes数据集上便实现了78.4%的平均交并比(mIoU),且无需访问任何真实的城市场景数据集。代码已开源,地址为:https://github.com/w1oves/Rein.git。