2ヶ月前

コードで訓練された大規模言語モデルの評価

Mark Chen; Jerry Tworek; Heewoo Jun; Qiming Yuan; Henrique Ponde de Oliveira Pinto; Jared Kaplan; Harri Edwards; Yuri Burda; Nicholas Joseph; Greg Brockman; Alex Ray; Raul Puri; Gretchen Krueger; Michael Petrov; Heidy Khlaaf; Girish Sastry; Pamela Mishkin; Brooke Chan; Scott Gray; Nick Ryder; Mikhail Pavlov; Alethea Power; Lukasz Kaiser; Mohammad Bavarian; Clemens Winter; Philippe Tillet; Felipe Petroski Such; Dave Cummings; Matthias Plappert; Fotios Chantzis; Elizabeth Barnes; Ariel Herbert-Voss; William Hebgen Guss; Alex Nichol; Alex Paino; Nikolas Tezak; Jie Tang; Igor Babuschkin; Suchir Balaji; Shantanu Jain; William Saunders; Christopher Hesse; Andrew N. Carr; Jan Leike; Josh Achiam; Vedant Misra; Evan Morikawa; Alec Radford; Matthew Knight; Miles Brundage; Mira Murati; Katie Mayer; Peter Welinder; Bob McGrew; Dario Amodei; Sam McCandlish; Ilya Sutskever; Wojciech Zaremba

論文の詳細を見る

要約

私たちは、GitHubの公開コードで微調整されたGPT言語モデルであるCodexを紹介し、そのPythonコード作成能力について研究を行いました。Codexの独自の製品版がGitHub Copilotを駆動しています。HumanEvalという新しい評価セットをリリースし、プログラムの機能的正しさをドキュメンテーション文字列から合成するための測定を行いました。当社のモデルは28.8%の問題を解決しましたが、GPT-3は0%、GPT-Jは11.4%でした。さらに、我々はモデルからの反復サンプリングが困難なプロンプトに対して動作するソリューションを生成する驚くほど効果的な戦略であることを発見しました。この方法を使用して、各問題につき100サンプルを使用することで70.2%の問題を解決しました。当社のモデルの詳細な調査により、その制限点も明らかになりました。其中包括して、長大な操作チェーンを記述したドキュメンテーション文字列への対応や変数へのバインディング操作に難があることがわかりました。最後に、強力なコード生成技術を展開することによる潜在的な広範な影響について議論します。安全性、セキュリティ、経済面について取り上げます。注：「ドキュメンテーション文字列」（docstrings）と「操作チェーン」（chains of operations）は一般的にはこのような訳が用いられます。ただし、「バインディング操作」（binding operations）はあまり一般的ではないため、括弧内に原文を付けています。