単一ステップ報酬を用いたマルチターンコード生成
Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury
公開日: 6/20/2025

要約
私たちはマルチターン実行フィードバックからのコード生成の問題に取り組んでいます。既存の手法は、フィードバックなしでコードを生成するか、複雑な階層強化学習を使用してマルチターン報酬を最適化するものがあります。私たちは、単一ステップ報酬のみを使用してマルチターンコード生成を行うシンプルかつスケーラブルなアプローチ、CODE(コーデ)を提案します。私たちの主な洞察は、コード生成が一歩回復可能なMDP(マルコフ決定過程)であるということです。つまり、任意の中間コード状態から正しいコードを一ターンで回復することができます。CODEは、マルチターン実行フィードバックに基づいてコードソリューションを提供するジェネレータと、新しく生成されたコードのスコアリングを行うバリアラブルを反復的に訓練します。実験評価では、当アプローチが最先端のベースラインに対して大幅な改善を達成していることが示されています。また、報酬モデルと方策の設計選択肢について分析を行い、CODEが実行フィードバックを利用することの効果性を示しています。