Command Palette
Search for a command to run...
自然非格化:预训练期间哪些规则得以保留的非对称控制
自然非格化:预训练期间哪些规则得以保留的非对称控制
Juliana Li Diya Sreedhar
摘要
在常规预训练过程的中期,一个小语言模型学会了代词-性别规则:当以女孩的名字(“Sue cried because”)作为提示时,它将下一个代词解析为 she,并在留出探测集上表现出泛化能力(第925步时达到0.94)。到了第3,500步,同一模型在相同探测集上的得分接近于零,尽管该规则的证据仍然存在于训练数据中。我们将这种单次运行内的逆转称为自然非理解(natural ungrokking):语料库决定了模型保留哪些已学规则,而这一过程在损失曲线上毫无痕迹。哪些规则能够存活,可以通过一个语料库统计量来预测:训练流中该规则获胜的频率。在未干预的运行中(两个语料库、三个预算、三个随机种子),支持频率决定了规则的命运;数据与参数之比仅调节注定失败的规则下坠的深度。同样的“先涌现后崩溃”动力学现象也出现在公开的 Pythia 检查点中,崩溃深度按模型规模排序,与预测一致。这种遗忘是一种置换:一个竞争性的表层模式压倒了该规则,且两者之间的对数概率差值在行为崩溃发生后的100个训练步内跨越零点。对此命运的控制具有不对称性:能够按需摧毁该规则的同一编辑操作无法将其恢复。将支持直接替换为反证,会在两个无关规则中表现出单调的剂量-反应关系并导致该规则失效;但即使将支持重新注入到自然维持其水平的450倍,也无法带来任何恢复。在读取其所支配的数据之前,每一个确认阈值和预测均已预先注册。