Command Palette

Search for a command to run...

2 天前

叠加效应带来稳健的神经缩放

Yizhou Liu Ziming Liu Jeff Gore

叠加效应带来稳健的神经缩放

摘要

当前大型语言模型(LLMs)的成功依赖于一个关键观察:模型规模越大,性能越好。然而,这种神经缩放规律——即损失随模型规模按幂律下降——的根源仍不明确。我们提出,表征超叠加(representation superposition)可能是导致这一现象的关键因素,即大型语言模型所表示的特征数量超过了其维度数。基于Anthropic的简化模型,我们利用权重衰减来调控超叠加的程度,从而系统地研究损失如何随模型规模变化。当超叠加较弱时,只有当数据特征频率呈幂律分布时,损失才遵循幂律规律;而在强超叠加条件下,无论频率分布属于哪一类广泛分布,损失通常都与模型维度呈反比关系,这是由于表征向量之间的几何重叠所致。我们验证了开源的大型语言模型确实处于强超叠加状态,其损失与模型维度呈反比关系,且这一现象与Chinchilla缩放定律也一致。我们的研究结果表明,表征超叠加是神经缩放规律的核心驱动力,为理解神经缩放规律何时可被改进、何时会失效等问题提供了重要洞见。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供