17 天前
SWAD:通过寻找平坦极小值实现领域泛化
Junbum Cha, Sanghyuk Chun, Kyungjae Lee, Han-Cheol Cho, Seunghyun Park, Yunsung Lee, Sungrae Park

摘要
领域泛化(Domain Generalization, DG)方法旨在仅利用源域的训练数据,实现对未见目标域的泛化能力。尽管已有多种DG方法被提出,但近期一项研究在公平的评估协议——DomainBed下发现,简单的经验风险最小化(Empirical Risk Minimization, ERM)方法的表现可与甚至优于以往多数方法。然而,直接在复杂且非凸的损失函数上求解ERM,容易因寻找尖锐极小值(sharp minima)而导致泛化性能次优。本文从理论上证明,寻找平坦极小值(flat minima)能够有效缩小领域泛化差距(domain generalization gap)。基于此,我们提出一种简单而高效的方法——密集型随机权重平均(Stochastic Weight Averaging Densely, SWAD),用于寻找平坦极小值。SWAD通过一种密集且具有过拟合感知能力的随机权重采样策略,在保持计算效率的同时,相比原始SWA方法能更有效地避免过拟合,从而获得更平坦的极小值。在五个主流DG基准测试(PACS、VLCS、OfficeHome、TerraIncognita和DomainNet)上,SWAD均取得了当前最优性能,其在跨域准确率上的平均提升高达+1.6%,且表现稳定、提升显著。我们进一步将SWAD与传统泛化方法(如数据增强、一致性正则化等)进行对比,验证了性能提升的根源在于对平坦极小值的追求,而非对域内泛化能力的增强。最后,SWAD具有良好的兼容性,无需修改现有DG方法即可无缝集成。将SWAD与已有DG方法结合使用,可进一步提升领域泛化性能。相关源代码已开源,地址为:https://github.com/khanrc/swad。