HyperAI超神经

摘要

已有若干论文指出，宽的极小值（wide minima）相较于窄的极小值具有更好的泛化性能。本文通过一系列详尽的实验，在验证宽极小值泛化能力的同时，进一步提供了支持一项新假设的实证证据：宽极小值的密度可能低于窄极小值的密度。基于这一假设，我们设计了一种新颖的“探索-利用”（explore-exploit）学习率调度策略。在多种图像与自然语言处理数据集上，相较于原始的手动调优学习率基线，我们的探索-利用调度策略能够在保持原有训练预算的前提下，将模型绝对准确率提升最高达0.84%；或在达到原始报告准确率的前提下，将训练时间减少最多达57%。例如，仅通过调整一个高性能模型的学习率调度策略，我们在IWSLT'14（DE-EN）数据集上即实现了当前最优（SOTA）的性能表现。

摘要

Nikhil Iyer V Thejas Nipun Kwatra Ramachandran Ramjee Muthian Sivathanu

摘要

用 AI 构建 AI

HyperAI Newsletters

Nikhil Iyer V Thejas Nipun Kwatra Ramachandran Ramjee Muthian Sivathanu

摘要

用 AI 构建 AI

HyperAI Newsletters

Nikhil Iyer V Thejas Nipun Kwatra Ramachandran Ramjee Muthian Sivathanu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

宽极小值密度假说与探索-利用学习率调度

Nikhil Iyer V Thejas Nipun Kwatra Ramachandran Ramjee Muthian Sivathanu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

宽极小值密度假说与探索-利用学习率调度

Nikhil Iyer V Thejas Nipun Kwatra Ramachandran Ramjee Muthian Sivathanu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

宽极小值密度假说与探索-利用学习率调度

Nikhil Iyer V Thejas Nipun Kwatra Ramachandran Ramjee Muthian Sivathanu

摘要

用 AI 构建 AI

HyperAI Newsletters