9 天前
Pythia:一套用于分析大语言模型在训练与扩展过程中的工具套件
Stella Biderman, Hailey Schoelkopf, Quentin Anthony, Herbie Bradley, Kyle O', Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika, Oskar van der Wal

摘要
大型语言模型(LLMs)在训练过程中如何发展与演进?随着模型规模的扩大,这些演化模式又会发生怎样的变化?为回答这些问题,我们提出了 \textit{Pythia}——一个包含16个大型语言模型的系列,所有模型均在完全相同的公共数据集上进行训练,且数据的处理顺序完全一致,模型参数规模从7000万到120亿不等。我们为这16个模型中的每一个都公开提供了154个训练检查点(checkpoints),并配套提供工具,可下载并重建其精确的训练数据加载器(dataloaders),以便于后续深入研究。我们期望 \textit{Pythia} 能够推动多个研究方向的发展,并在此报告中展示了若干案例研究,包括在记忆行为方面的全新发现、词频对少样本性能的影响,以及降低性别偏见的有效策略。我们证明,这种高度受控的实验设置能够为理解大型语言模型及其训练动态提供全新的洞见。所有训练好的模型、分析代码、训练代码及训练数据均可在 \url{https://github.com/EleutherAI/pythia} 获取。