2 个月前
GPT-NeoX-20B:一个开源的自回归语言模型
Sid Black; Stella Biderman; Eric Hallahan; Quentin Anthony; Leo Gao; Laurence Golding; Horace He; Connor Leahy; Kyle McDonell; Jason Phang; Michael Pieler; USVSN Sai Prashanth; Shivanshu Purohit; Laria Reynolds; Jonathan Tow; Ben Wang; Samuel Weinbach

摘要
我们介绍了一种名为GPT-NeoX-20B的自回归语言模型,该模型拥有200亿个参数,并在Pile数据集上进行了训练。我们将通过一个宽松的许可协议,将该模型的权重免费且公开地提供给公众。据我们所知,在提交时,这是目前公开权重的最大规模的密集自回归模型。在这项工作中,我们描述了GPT-NeoX-20B的架构和训练过程,并对其在一系列语言理解、数学和知识型任务上的性能进行了评估。我们发现,GPT-NeoX-20B在少量样本推理方面表现出色,在五次提示评估中的性能提升远超同样规模的GPT-3和FairSeq模型。我们已将训练和评估代码以及模型权重开源,具体地址为:https://github.com/EleutherAI/gpt-neox。