HyperAIHyperAI

Command Palette

Search for a command to run...

用于高效提升泛化能力的锐度感知最小化

Pierre Foret Ariel Kleiner Hossein Mobahi Behnam Neyshabur

摘要

在当今高度过参数化的模型中,训练损失值对模型泛化能力的保证极为有限。事实上,仅优化训练损失值(这是目前普遍采用的做法)极易导致模型质量不佳。受先前研究中关于损失曲面几何结构与泛化能力之间关联的启发,我们提出了一种新颖且高效的优化方法,即同时最小化损失值与损失的“尖锐度”(sharpness)。具体而言,我们的方法——尖锐度感知最小化(Sharpness-Aware Minimization, SAM)——旨在寻找位于损失值普遍较低的邻域内的模型参数;这一目标可形式化为一个高效的梯度下降可求解的极小-极大优化问题。实验结果表明,SAM在多种基准数据集(如CIFAR-10、CIFAR-100、ImageNet以及微调任务)和模型架构上均显著提升了模型的泛化性能,为其中若干任务带来了新的最先进(SOTA)表现。此外,我们发现SAM天然具备与专门针对标签噪声设计的先进方法相当的鲁棒性,能够有效应对标签噪声问题。相关代码已开源,地址为:\url{https://github.com/google-research/sam}


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供