8ヶ月前

コード生成

Preference Modeling

アプローチ／フレームワーク

自然言語処理

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

概要

私たちはマルチターン実行フィードバックからのコード生成の問題に取り組んでいます。既存の手法は、フィードバックなしでコードを生成するか、複雑な階層強化学習を使用してマルチターン報酬を最適化するものがあります。私たちは、単一ステップ報酬のみを使用してマルチターンコード生成を行うシンプルかつスケーラブルなアプローチ、CODE（コーデ）を提案します。私たちの主な洞察は、コード生成が一歩回復可能なMDP（マルコフ決定過程）であるということです。つまり、任意の中間コード状態から正しいコードを一ターンで回復することができます。CODEは、マルチターン実行フィードバックに基づいてコードソリューションを提供するジェネレータと、新しく生成されたコードのスコアリングを行うバリアラブルを反復的に訓練します。実験評価では、当アプローチが最先端のベースラインに対して大幅な改善を達成していることが示されています。また、報酬モデルと方策の設計選択肢について分析を行い、CODEが実行フィードバックを利用することの効果性を示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

コード生成

Preference Modeling

アプローチ／フレームワーク

自然言語処理

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

概要

私たちはマルチターン実行フィードバックからのコード生成の問題に取り組んでいます。既存の手法は、フィードバックなしでコードを生成するか、複雑な階層強化学習を使用してマルチターン報酬を最適化するものがあります。私たちは、単一ステップ報酬のみを使用してマルチターンコード生成を行うシンプルかつスケーラブルなアプローチ、CODE（コーデ）を提案します。私たちの主な洞察は、コード生成が一歩回復可能なMDP（マルコフ決定過程）であるということです。つまり、任意の中間コード状態から正しいコードを一ターンで回復することができます。CODEは、マルチターン実行フィードバックに基づいてコードソリューションを提供するジェネレータと、新しく生成されたコードのスコアリングを行うバリアラブルを反復的に訓練します。実験評価では、当アプローチが最先端のベースラインに対して大幅な改善を達成していることが示されています。また、報酬モデルと方策の設計選択肢について分析を行い、CODEが実行フィードバックを利用することの効果性を示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています