8ヶ月前

コード生成

ベンチマーク

データセット

AIインフラストラクチャ

自然言語処理

Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora Ethan Guo Collin Burns Samir Puranik Horace He Dawn Song

概要

現代社会においてプログラミングは最も広く応用されるスキルの一つですが、現代の機械学習モデルは依然として基本的な問題をコードで解決することができません。その重要性にもかかわらず、コード生成の評価に関する研究は意外と少なく、コード生成性能を厳密に評価することが困難な場合があります。この課題に対処するために、我々はAPPSというコード生成のベンチマークを導入します。従来のより制約のある設定とは異なり、当ベンチマークではモデルが任意の自然言語仕様を受け取り、満足できるPythonコードを生成する能力を測定します。企業が候補のソフトウェア開発者を評価する方法と同様に、生成されたコードをテストケースで検証することでモデルを評価します。当ベンチマークには10,000問以上の問題が含まれており、単純な1行の解から複雑なアルゴリズム的課題まで幅広い難易度を持っています。GitHubおよび当社のトレーニングセットを使用して大規模言語モデルを微調整し、モデルの改善とともに構文エラーの頻度が指数関数的に減少していることを確認しました。GPT-Neoなどの最近のモデルは初級レベルの問題のテストケースのおよそ20%程度を通過できることから、機械学習モデルが徐々にコーディングを学び始めていることがわかります。自動コード生成の社会的重要性が今後数年で増加していくにつれて、当ベンチマークは進歩状況を追跡する重要な指標となるでしょう。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

コード生成

ベンチマーク

データセット

AIインフラストラクチャ

自然言語処理

Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora Ethan Guo Collin Burns Samir Puranik Horace He Dawn Song

概要

現代社会においてプログラミングは最も広く応用されるスキルの一つですが、現代の機械学習モデルは依然として基本的な問題をコードで解決することができません。その重要性にもかかわらず、コード生成の評価に関する研究は意外と少なく、コード生成性能を厳密に評価することが困難な場合があります。この課題に対処するために、我々はAPPSというコード生成のベンチマークを導入します。従来のより制約のある設定とは異なり、当ベンチマークではモデルが任意の自然言語仕様を受け取り、満足できるPythonコードを生成する能力を測定します。企業が候補のソフトウェア開発者を評価する方法と同様に、生成されたコードをテストケースで検証することでモデルを評価します。当ベンチマークには10,000問以上の問題が含まれており、単純な1行の解から複雑なアルゴリズム的課題まで幅広い難易度を持っています。GitHubおよび当社のトレーニングセットを使用して大規模言語モデルを微調整し、モデルの改善とともに構文エラーの頻度が指数関数的に減少していることを確認しました。GPT-Neoなどの最近のモデルは初級レベルの問題のテストケースのおよそ20%程度を通過できることから、機械学習モデルが徐々にコーディングを学び始めていることがわかります。自動コード生成の社会的重要性が今後数年で増加していくにつれて、当ベンチマークは進歩状況を追跡する重要な指標となるでしょう。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

APPS を使用したコーディングチャレンジの能力測定 | 記事 | HyperAI超神経