2 个月前

在大型语言模型预训练中如何找到“Grokking”?监测从记忆到泛化的转变而不使用测试集

Ziyue Li, Chenrui Fan, Tianyi Zhou
在大型语言模型预训练中如何找到“Grokking”?监测从记忆到泛化的转变而不使用测试集
摘要

理解现象(Grokking),即测试性能在训练损失收敛后仍持续提升,最近在神经网络训练中被观察到,使得泛化机制及其他新兴能力如推理变得扑朔迷离。以往的研究通常对小型模型进行数千轮的训练,以处理一些玩具任务或高度特定的任务,而我们首次对一个70亿参数的大规模语言模型(OLMoE)在单次预训练过程中的检查点进行了理解现象的研究。我们计算了训练损失,并评估了包括数学推理、代码生成以及常识/领域特定知识检索在内的多种基准任务上的泛化性能。我们的研究首次证实,在大规模基础模型的预训练过程中仍然会发生理解现象,尽管不同的数据可能异步进入理解阶段。通过进一步探究大规模语言模型内部的动力学机制,我们揭示了理解现象中“泛化能力的涌现”。具体而言,我们发现,在理解过程中,训练样本的路径(即各层专家的选择)从随机且实例特定的状态逐渐演变为更加结构化且样本间可共享的状态。此外,尽管损失已收敛,样本路径的复杂度却有所降低。这些迹象表明存在从记忆到泛化的转换过程,为延迟泛化的机制提供了解释。在本研究中,我们开发了两种新的指标来量化路径距离和单一路径的复杂度。结果显示,这两种指标能够预测不同下游任务上的泛化性能提升。它们计算简便且仅依赖于训练数据,因此具有实际应用价值,使我们在无需微调和测试的情况下监测预训练过程中的泛化性能成为可能。理论上,我们证明了更加结构化的路径可以降低模型复杂度并提高泛化边界。

在大型语言模型预训练中如何找到“Grokking”?监测从记忆到泛化的转变而不使用测试集 | 最新论文 | HyperAI超神经