6 个月前

计算机视觉

Pierre Foret Ariel Kleiner Hossein Mobahi Behnam Neyshabur

摘要

在当今高度过参数化的模型中，训练损失值对模型泛化能力的保证极为有限。事实上，仅优化训练损失值（这是目前普遍采用的做法）极易导致模型质量不佳。受先前研究中关于损失曲面几何结构与泛化能力之间关联的启发，我们提出了一种新颖且高效的优化方法，即同时最小化损失值与损失的“尖锐度”（sharpness）。具体而言，我们的方法——尖锐度感知最小化（Sharpness-Aware Minimization, SAM）——旨在寻找位于损失值普遍较低的邻域内的模型参数；这一目标可形式化为一个高效的梯度下降可求解的极小-极大优化问题。实验结果表明，SAM在多种基准数据集（如CIFAR-10、CIFAR-100、ImageNet以及微调任务）和模型架构上均显著提升了模型的泛化性能，为其中若干任务带来了新的最先进（SOTA）表现。此外，我们发现SAM天然具备与专门针对标签噪声设计的先进方法相当的鲁棒性，能够有效应对标签噪声问题。相关代码已开源，地址为：\url{https://github.com/google-research/sam}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Pierre Foret Ariel Kleiner Hossein Mobahi Behnam Neyshabur

摘要

在当今高度过参数化的模型中，训练损失值对模型泛化能力的保证极为有限。事实上，仅优化训练损失值（这是目前普遍采用的做法）极易导致模型质量不佳。受先前研究中关于损失曲面几何结构与泛化能力之间关联的启发，我们提出了一种新颖且高效的优化方法，即同时最小化损失值与损失的“尖锐度”（sharpness）。具体而言，我们的方法——尖锐度感知最小化（Sharpness-Aware Minimization, SAM）——旨在寻找位于损失值普遍较低的邻域内的模型参数；这一目标可形式化为一个高效的梯度下降可求解的极小-极大优化问题。实验结果表明，SAM在多种基准数据集（如CIFAR-10、CIFAR-100、ImageNet以及微调任务）和模型架构上均显著提升了模型的泛化性能，为其中若干任务带来了新的最先进（SOTA）表现。此外，我们发现SAM天然具备与专门针对标签噪声设计的先进方法相当的鲁棒性，能够有效应对标签噪声问题。相关代码已开源，地址为：\url{https://github.com/google-research/sam}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供