6 个月前

自然语言处理

自然语言处理

Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe Charles Foster Jason Phang Horace He Anish Thite Noa Nabeshima

摘要

近期研究已表明，增加训练数据集的多样性有助于提升大规模语言模型在跨领域知识泛化及下游任务泛化能力方面的表现。基于这一认识，我们提出了The Pile：一个总容量达825 GiB的英文文本语料库，专为训练大规模语言模型而设计。该语料库由22个多样化且高质量的数据子集构建而成，其中部分为已有数据源，部分为新构建的数据集，许多数据来源涵盖学术或专业领域。我们对未调优的GPT-2与GPT-3模型在The Pile上的表现进行了评估，结果表明，这些模型在多个子集（如学术写作）上表现不佳。相比之下，基于The Pile训练的模型在所有子集上的表现均显著优于原始Common Crawl（Raw CC）与CC-100，同时在下游任务评估中也展现出更强的性能。通过深入的探索性分析，我们揭示了该数据集对潜在使用者可能存在的若干值得关注的问题。相关数据构建代码已公开发布，供社区使用与复现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe Charles Foster Jason Phang Horace He Anish Thite Noa Nabeshima

摘要

近期研究已表明，增加训练数据集的多样性有助于提升大规模语言模型在跨领域知识泛化及下游任务泛化能力方面的表现。基于这一认识，我们提出了The Pile：一个总容量达825 GiB的英文文本语料库，专为训练大规模语言模型而设计。该语料库由22个多样化且高质量的数据子集构建而成，其中部分为已有数据源，部分为新构建的数据集，许多数据来源涵盖学术或专业领域。我们对未调优的GPT-2与GPT-3模型在The Pile上的表现进行了评估，结果表明，这些模型在多个子集（如学术写作）上表现不佳。相比之下，基于The Pile训练的模型在所有子集上的表现均显著优于原始Common Crawl（Raw CC）与CC-100，同时在下游任务评估中也展现出更强的性能。通过深入的探索性分析，我们揭示了该数据集对潜在使用者可能存在的若干值得关注的问题。相关数据构建代码已公开发布，供社区使用与复现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供