自适应矩估计 Adam

Adam 全称为 Adaptive Moment Estimation(自适应矩估计),是一种用于一阶梯度优化的算法,特别适用于处理大规模数据和参数的优化问题。它由 Diederik P. Kingma 和 Jimmy Ba 于 2014 年提出,并在 2015 年的 ICLR 会议上发表相关论文「Adam: A Method for Stochastic Optimization」。

Adam 算法是一种基于一阶梯度的随机目标函数优化算法,它基于对低阶矩的自适应估计。该方法实现起来直接简单,计算效率高,内存需求小,对梯度的对角缩放不变,非常适合处理数据量和/或参数量大的问题。该方法也适用于非静态目标和具有非常嘈杂和/或稀疏梯度的问题。超参数具有直观的解释,通常不需要太多调整。