6 个月前

Stella Biderman Hailey Schoelkopf Quentin Anthony Herbie Bradley Kyle O&#39 Brien Eric Hallahan Mohammad Aflah Khan Shivanshu Purohit USVSN Sai Prashanth

摘要

大型语言模型（LLMs）在训练过程中如何发展与演进？随着模型规模的扩大，这些演化模式又会发生怎样的变化？为回答这些问题，我们提出了 \textit{Pythia}——一个包含16个大型语言模型的系列，所有模型均在完全相同的公共数据集上进行训练，且数据的处理顺序完全一致，模型参数规模从7000万到120亿不等。我们为这16个模型中的每一个都公开提供了154个训练检查点（checkpoints），并配套提供工具，可下载并重建其精确的训练数据加载器（dataloaders），以便于后续深入研究。我们期望 \textit{Pythia} 能够推动多个研究方向的发展，并在此报告中展示了若干案例研究，包括在记忆行为方面的全新发现、词频对少样本性能的影响，以及降低性别偏见的有效策略。我们证明，这种高度受控的实验设置能够为理解大型语言模型及其训练动态提供全新的洞见。所有训练好的模型、分析代码、训练代码及训练数据均可在 \url{https://github.com/EleutherAI/pythia} 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Stella Biderman Hailey Schoelkopf Quentin Anthony Herbie Bradley Kyle O&#39 Brien Eric Hallahan Mohammad Aflah Khan Shivanshu Purohit USVSN Sai Prashanth

摘要

大型语言模型（LLMs）在训练过程中如何发展与演进？随着模型规模的扩大，这些演化模式又会发生怎样的变化？为回答这些问题，我们提出了 \textit{Pythia}——一个包含16个大型语言模型的系列，所有模型均在完全相同的公共数据集上进行训练，且数据的处理顺序完全一致，模型参数规模从7000万到120亿不等。我们为这16个模型中的每一个都公开提供了154个训练检查点（checkpoints），并配套提供工具，可下载并重建其精确的训练数据加载器（dataloaders），以便于后续深入研究。我们期望 \textit{Pythia} 能够推动多个研究方向的发展，并在此报告中展示了若干案例研究，包括在记忆行为方面的全新发现、词频对少样本性能的影响，以及降低性别偏见的有效策略。我们证明，这种高度受控的实验设置能够为理解大型语言模型及其训练动态提供全新的洞见。所有训练好的模型、分析代码、训练代码及训练数据均可在 \url{https://github.com/EleutherAI/pythia} 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供