Command Palette
Search for a command to run...
コードで訓練された大規模言語モデルの評価
コードで訓練された大規模言語モデルの評価
概要
私たちは、GitHubの公開コードで微調整されたGPT言語モデルであるCodexを紹介し、そのPythonコード作成能力について研究を行いました。Codexの独自の製品版がGitHub Copilotを駆動しています。HumanEvalという新しい評価セットをリリースし、プログラムの機能的正しさをドキュメンテーション文字列から合成するための測定を行いました。当社のモデルは28.8%の問題を解決しましたが、GPT-3は0%、GPT-Jは11.4%でした。さらに、我々はモデルからの反復サンプリングが困難なプロンプトに対して動作するソリューションを生成する驚くほど効果的な戦略であることを発見しました。この方法を使用して、各問題につき100サンプルを使用することで70.2%の問題を解決しました。当社のモデルの詳細な調査により、その制限点も明らかになりました。其中包括して、長大な操作チェーンを記述したドキュメンテーション文字列への対応や変数へのバインディング操作に難があることがわかりました。最後に、強力なコード生成技術を展開することによる潜在的な広範な影響について議論します。安全性、セキュリティ、経済面について取り上げます。注:「ドキュメンテーション文字列」(docstrings)と「操作チェーン」(chains of operations)は一般的にはこのような訳が用いられます。ただし、「バインディング操作」(binding operations)はあまり一般的ではないため、括弧内に原文を付けています。