
摘要
在当今高度过参数化的模型中,训练损失值对模型泛化能力的保证极为有限。事实上,仅优化训练损失值(这是目前普遍采用的做法)极易导致模型质量不佳。受先前研究中关于损失曲面几何结构与泛化能力之间关联的启发,我们提出了一种新颖且高效的优化方法,即同时最小化损失值与损失的“尖锐度”(sharpness)。具体而言,我们的方法——尖锐度感知最小化(Sharpness-Aware Minimization, SAM)——旨在寻找位于损失值普遍较低的邻域内的模型参数;这一目标可形式化为一个高效的梯度下降可求解的极小-极大优化问题。实验结果表明,SAM在多种基准数据集(如CIFAR-10、CIFAR-100、ImageNet以及微调任务)和模型架构上均显著提升了模型的泛化性能,为其中若干任务带来了新的最先进(SOTA)表现。此外,我们发现SAM天然具备与专门针对标签噪声设计的先进方法相当的鲁棒性,能够有效应对标签噪声问题。相关代码已开源,地址为:\url{https://github.com/google-research/sam}。