HyperAI超神经

摘要

在常规预训练过程的中期，一个小语言模型学会了代词-性别规则：当以女孩的名字（“Sue cried because”）作为提示时，它将下一个代词解析为 she，并在留出探测集上表现出泛化能力（第925步时达到0.94）。到了第3,500步，同一模型在相同探测集上的得分接近于零，尽管该规则的证据仍然存在于训练数据中。我们将这种单次运行内的逆转称为自然非理解（natural ungrokking）：语料库决定了模型保留哪些已学规则，而这一过程在损失曲线上毫无痕迹。哪些规则能够存活，可以通过一个语料库统计量来预测：训练流中该规则获胜的频率。在未干预的运行中（两个语料库、三个预算、三个随机种子），支持频率决定了规则的命运；数据与参数之比仅调节注定失败的规则下坠的深度。同样的“先涌现后崩溃”动力学现象也出现在公开的 Pythia 检查点中，崩溃深度按模型规模排序，与预测一致。这种遗忘是一种置换：一个竞争性的表层模式压倒了该规则，且两者之间的对数概率差值在行为崩溃发生后的100个训练步内跨越零点。对此命运的控制具有不对称性：能够按需摧毁该规则的同一编辑操作无法将其恢复。将支持直接替换为反证，会在两个无关规则中表现出单调的剂量-反应关系并导致该规则失效；但即使将支持重新注入到自然维持其水平的450倍，也无法带来任何恢复。在读取其所支配的数据之前，每一个确认阈值和预测均已预先注册。

摘要

Juliana Li Diya Sreedhar

摘要

用 AI 构建 AI

HyperAI Newsletters

Juliana Li Diya Sreedhar

摘要

用 AI 构建 AI

HyperAI Newsletters

Juliana Li Diya Sreedhar

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

自然非格化：预训练期间哪些规则得以保留的非对称控制

Juliana Li Diya Sreedhar

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

自然非格化：预训练期间哪些规则得以保留的非对称控制

Juliana Li Diya Sreedhar

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

自然非格化：预训练期间哪些规则得以保留的非对称控制

Juliana Li Diya Sreedhar

摘要

用 AI 构建 AI

HyperAI Newsletters