Command Palette

Search for a command to run...

5ヶ月前

単一ステップ報酬を用いたマルチターンコード生成

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

単一ステップ報酬を用いたマルチターンコード生成

要約

私たちはマルチターン実行フィードバックからのコード生成の問題に取り組んでいます。既存の手法は、フィードバックなしでコードを生成するか、複雑な階層強化学習を使用してマルチターン報酬を最適化するものがあります。私たちは、単一ステップ報酬のみを使用してマルチターンコード生成を行うシンプルかつスケーラブルなアプローチ、CODE(コーデ)を提案します。私たちの主な洞察は、コード生成が一歩回復可能なMDP(マルコフ決定過程)であるということです。つまり、任意の中間コード状態から正しいコードを一ターンで回復することができます。CODEは、マルチターン実行フィードバックに基づいてコードソリューションを提供するジェネレータと、新しく生成されたコードのスコアリングを行うバリアラブルを反復的に訓練します。実験評価では、当アプローチが最先端のベースラインに対して大幅な改善を達成していることが示されています。また、報酬モデルと方策の設計選択肢について分析を行い、CODEが実行フィードバックを利用することの効果性を示しています。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
単一ステップ報酬を用いたマルチターンコード生成 | 論文 | HyperAI超神経