2 个月前

GPT-NeoX-20B：一个开源的自回归语言模型

Sid Black; Stella Biderman; Eric Hallahan; Quentin Anthony; Leo Gao; Laurence Golding; Horace He; Connor Leahy; Kyle McDonell; Jason Phang; Michael Pieler; USVSN Sai Prashanth; Shivanshu Purohit; Laria Reynolds; Jonathan Tow; Ben Wang; Samuel Weinbach

查看论文详情

摘要

我们介绍了一种名为GPT-NeoX-20B的自回归语言模型，该模型拥有200亿个参数，并在Pile数据集上进行了训练。我们将通过一个宽松的许可协议，将该模型的权重免费且公开地提供给公众。据我们所知，在提交时，这是目前公开权重的最大规模的密集自回归模型。在这项工作中，我们描述了GPT-NeoX-20B的架构和训练过程，并对其在一系列语言理解、数学和知识型任务上的性能进行了评估。我们发现，GPT-NeoX-20B在少量样本推理方面表现出色，在五次提示评估中的性能提升远超同样规模的GPT-3和FairSeq模型。我们已将训练和评估代码以及模型权重开源，具体地址为：https://github.com/EleutherAI/gpt-neox。