HyperAI超神经

记忆-压缩循环提高泛化能力

Fangyuan Yu
发布日期: 5/15/2025
记忆-压缩循环提高泛化能力
摘要

我们从理论上证明了泛化不仅通过数据扩展得到改善,还可以通过压缩内部表示来实现。为了将这一见解付诸实践,我们引入了信息瓶颈语言建模(IBLM)目标,该目标将语言建模重新定义为一个约束优化问题:在最优预测性能的前提下最小化表示熵。实验结果表明,在大语言模型(LLM)预训练过程中出现了一个记忆-压缩循环,这表现为交叉熵和基于矩阵的熵(Matrix-Based Entropy, MBE)之间的正负梯度对齐的振荡现象。这种模式与IBLM所规定的预测-压缩权衡非常接近,并且类似于生物学习中觉醒学习和睡眠巩固之间的交替过程。受此观察的启发,我们提出了门控相变(Gated Phase Transition, GAPT)算法,这是一种自适应地在记忆阶段和压缩阶段之间切换的训练方法。当应用于FineWeb数据集上的GPT-2预训练时,GAPT将MBE降低了50%,并使交叉熵提高了4.8%。在设计用于模拟灾难性遗忘的设置中,GAPT通过压缩和分离表示减少了干扰,实现了97%的分离改进——这与睡眠巩固的功能作用相似。关键词:泛化、数据扩展、内部表示、信息瓶颈语言建模(IBLM)、约束优化问题、表示熵、大语言模型(LLM)、记忆-压缩循环、交叉熵、基于矩阵的熵(Matrix-Based Entropy, MBE)、门控相变(Gated Phase Transition, GAPT)、灾难性遗忘、睡眠巩固