11 天前

领域无关的自适应方法优势

Pedro Savarese, David McAllester, Sudarshan Babu, Michael Maire
领域无关的自适应方法优势
摘要

通过对自适应优化方法的简化分析,我们提出了AvaGrad这一新型优化器。当其自适应能力被合理调优时,AvaGrad在视觉任务上的表现优于SGD。我们发现,该方法的有效性部分源于学习率与自适应能力之间的解耦,这一特性显著简化了超参数搜索过程。基于这一观察,我们进一步证明,尽管违背了传统认知,只要充分考虑Adam优化器中学习率与自适应性之间的耦合关系,Adam同样可以在视觉任务上超越SGD。在实际应用中,AvaGrad在图像分类(CIFAR、ImageNet)和字符级语言建模(Penn Treebank)等任务上,其泛化准确率达到了现有优化器(无论是SGD还是自适应优化器)所能实现的最佳水平。