17 天前
宽极小值密度假说与探索-利用学习率调度
Nikhil Iyer, V Thejas, Nipun Kwatra, Ramachandran Ramjee, Muthian Sivathanu

摘要
已有若干论文指出,宽的极小值(wide minima)相较于窄的极小值具有更好的泛化性能。本文通过一系列详尽的实验,在验证宽极小值泛化能力的同时,进一步提供了支持一项新假设的实证证据:宽极小值的密度可能低于窄极小值的密度。基于这一假设,我们设计了一种新颖的“探索-利用”(explore-exploit)学习率调度策略。在多种图像与自然语言处理数据集上,相较于原始的手动调优学习率基线,我们的探索-利用调度策略能够在保持原有训练预算的前提下,将模型绝对准确率提升最高达0.84%;或在达到原始报告准确率的前提下,将训练时间减少最多达57%。例如,仅通过调整一个高性能模型的学习率调度策略,我们在IWSLT'14(DE-EN)数据集上即实现了当前最优(SOTA)的性能表现。