2 个月前
OPT:开放预训练变换器语言模型
Susan Zhang; Stephen Roller; Naman Goyal; Mikel Artetxe; Moya Chen; Shuohui Chen; Christopher Dewan; Mona Diab; Xian Li; Xi Victoria Lin; Todor Mihaylov; Myle Ott; Sam Shleifer; Kurt Shuster; Daniel Simig; Punit Singh Koura; Anjali Sridhar; Tianlu Wang; Luke Zettlemoyer

摘要
大型语言模型,通常需要数万甚至数十万个计算日进行训练,已经展现出在零样本和少样本学习方面的卓越能力。鉴于其高昂的计算成本,这些模型在没有大量资金的情况下难以复制。对于少数通过API提供的模型,研究者无法访问完整的模型权重,这使得对它们的研究变得困难。我们推出了开放预训练变换器(Open Pre-trained Transformers, OPT),这是一系列从1.25亿到1750亿参数的仅解码器预训练变换器,我们计划全面且负责任地与感兴趣的科研人员共享这些模型。我们展示了OPT-175B与GPT-3相当,但开发过程中所需的碳足迹仅为GPT-3的七分之一。此外,我们还将发布我们的实验记录,详细描述我们在基础设施方面遇到的挑战,并提供代码以便研究者对所有发布的模型进行实验。