2ヶ月前

APPS を使用したコーディングチャレンジの能力測定

Dan Hendrycks; Steven Basart; Saurav Kadavath; Mantas Mazeika; Akul Arora; Ethan Guo; Collin Burns; Samir Puranik; Horace He; Dawn Song; Jacob Steinhardt
APPS を使用したコーディングチャレンジの能力測定
要約

現代社会においてプログラミングは最も広く応用されるスキルの一つですが、現代の機械学習モデルは依然として基本的な問題をコードで解決することができません。その重要性にもかかわらず、コード生成の評価に関する研究は意外と少なく、コード生成性能を厳密に評価することが困難な場合があります。この課題に対処するために、我々はAPPSというコード生成のベンチマークを導入します。従来のより制約のある設定とは異なり、当ベンチマークではモデルが任意の自然言語仕様を受け取り、満足できるPythonコードを生成する能力を測定します。企業が候補のソフトウェア開発者を評価する方法と同様に、生成されたコードをテストケースで検証することでモデルを評価します。当ベンチマークには10,000問以上の問題が含まれており、単純な1行の解から複雑なアルゴリズム的課題まで幅広い難易度を持っています。GitHubおよび当社のトレーニングセットを使用して大規模言語モデルを微調整し、モデルの改善とともに構文エラーの頻度が指数関数的に減少していることを確認しました。GPT-Neoなどの最近のモデルは初級レベルの問題のテストケースのおよそ20%程度を通過できることから、機械学習モデルが徐々にコーディングを学び始めていることがわかります。自動コード生成の社会的重要性が今後数年で増加していくにつれて、当ベンチマークは進歩状況を追跡する重要な指標となるでしょう。

APPS を使用したコーディングチャレンジの能力測定 | 最新論文 | HyperAI超神経