8 个月前

Andrew Brock Soham De Samuel L. Smith Karen Simonyan

摘要

批量归一化（Batch Normalization）是大多数图像分类模型中的关键组件，但其性能受到批大小依赖性以及样本间相互作用的诸多不利影响。尽管近期研究已成功训练出无需归一化层的深层ResNet模型，但这些模型在测试准确率上仍无法达到最佳批量归一化网络的水平，且在使用较大学习率或强数据增强时往往表现出不稳定性。在本研究中，我们提出了一种自适应梯度裁剪技术，有效克服了上述不稳定性，并设计出一类显著改进的无归一化ResNet（Normalizer-Free ResNets）。我们的小型模型在ImageNet上的测试准确率与EfficientNet-B7相当，同时训练速度最快可提升8.7倍；而最大规模的模型在ImageNet上实现了86.5%的全新最优Top-1准确率。此外，在对3亿张带标签图像的大规模数据集进行预训练后，将模型微调至ImageNet时，无归一化模型的表现显著优于对应的批量归一化模型，其中最佳模型达到了89.2%的准确率。相关代码已开源，地址为：https://github.com/deepmind/deepmind-research/tree/master/nfnets。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Andrew Brock Soham De Samuel L. Smith Karen Simonyan

摘要

批量归一化（Batch Normalization）是大多数图像分类模型中的关键组件，但其性能受到批大小依赖性以及样本间相互作用的诸多不利影响。尽管近期研究已成功训练出无需归一化层的深层ResNet模型，但这些模型在测试准确率上仍无法达到最佳批量归一化网络的水平，且在使用较大学习率或强数据增强时往往表现出不稳定性。在本研究中，我们提出了一种自适应梯度裁剪技术，有效克服了上述不稳定性，并设计出一类显著改进的无归一化ResNet（Normalizer-Free ResNets）。我们的小型模型在ImageNet上的测试准确率与EfficientNet-B7相当，同时训练速度最快可提升8.7倍；而最大规模的模型在ImageNet上实现了86.5%的全新最优Top-1准确率。此外，在对3亿张带标签图像的大规模数据集进行预训练后，将模型微调至ImageNet时，无归一化模型的表现显著优于对应的批量归一化模型，其中最佳模型达到了89.2%的准确率。相关代码已开源，地址为：https://github.com/deepmind/deepmind-research/tree/master/nfnets。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供