Grokking 现象

在深度学习领域中,Grokking 现象指的是神经网络在训练过程中的一种现象,即在训练误差衰减很长时间后仍能实现良好的泛化。 Grokking 现象的有趣之处在于它是一种动态现象——也就是说,训练损失和测试损失之间的差距只存在于训练中期;一个能够领悟的网络最终会泛化,使得训练损失和测试损失在训练结束时都非常低。

这种现象暗示着神经网络在初始阶段可能主要在学习数据的一些基本特征或模式,导致训练损失迅速下降。而在后续阶段,网络开始逐渐理解数据更深层次的特征和结构,因此测试损失才会开始显著降低。这种现象可能意味着网络从简单的特征学习阶段转变为更复杂的特征学习阶段,也可能反映了网络学习过程中的某种动态性质变化。

「Grokking as the transition from lazy to rich training dynamics」论文提出,Grokking 现象(神经网络的测试损失在训练损失后显着下降)是由于从最初的「惰性」训练到随后的「丰富」特征学习的转变。通过对两层网络进行多项式回归研究,作者表明,当网络从用初始特征拟合数据转向学习新特征以实现更好的泛化时,就会发生 grokking 。他们认为特征学习的速率和初始特征对齐是这种延迟泛化的关键,这一概念可能适用于更复杂的神经网络。

Grokking 现象可以被视为从内核到特征学习机制的过渡,其特点是特点是神经网络的训练损失明显早于测试损失减少,可能发生在网络从懒惰训练动态的阶段转变为更丰富的特征学习模式的阶段。 grokking 可以通过从内核机制到特征学习机制的转变来触发。

参考来源

【1】「Grokking as the transition from lazy to rich training dynamics」——收录于 ICLR 2024