Command Palette
Search for a command to run...
评估训练于代码的大规模语言模型
评估训练于代码的大规模语言模型
摘要
我们介绍了Codex,这是一种在GitHub上公开可用的代码基础上微调的GPT语言模型,并研究了其编写Python代码的能力。Codex的一个特定生产版本为GitHub Copilot提供支持。在HumanEval(一个我们发布的用于评估从文档字符串合成程序的功能正确性的新数据集)上,我们的模型解决了28.8%的问题,而GPT-3解决了0%的问题,GPT-J解决了11.4%的问题。此外,我们发现从模型中重复采样是一种令人惊讶的有效策略,可以生成解决复杂提示的工作解决方案。使用这种方法,我们在每个问题上采样100次的情况下解决了70.2%的问题。对我们的模型进行仔细分析后,揭示了其局限性,包括难以处理描述长操作链的文档字符串以及将操作绑定到变量上的困难。最后,我们讨论了部署强大的代码生成技术可能带来的更广泛影响,涵盖了安全、安全性和经济方面。