4ヶ月前

ReCode: 強化学習を用いたコードAPI知識の更新

Haoze Wu Yunzhi Yao Wenhao Yu Huajun Chen Ningyu Zhang

要約

大規模言語モデル（LLMs）は優れたコード生成能力を示していますが、外部ライブラリAPIの頻繁な更新に適応する際には失敗することがあります。この重要な制限は、訓練データから得られる古いAPIの知識への依存から生じており、最新のドキュメンテーションにアクセスできる即使っても、動的な環境での信頼性のあるコード生成を阻害します。この問題に対処するために、我々はReCode（ルールベースの強化学習によるコード更新）という新しいフレームワークを提案します。これは、人間のプログラマがAPI変更に適応する方法を模倣したものです。具体的には、約2,000件のデータエントリから構成されるデータセットを作成し、LLMsが更新された情報を基にバージョン移行を行うように訓練します。次に、コード評価のために修正された文字列類似度指標を導入し、これが強化学習の報酬となります。実験結果は、ReCodeが動的なAPIシナリオにおけるLLMsのコード生成性能を大幅に向上させることを示しており、特に未見のCodeUpdateArenaタスクにおいて顕著です。重要な点は、教師あり微調整と比較して、ReCodeがLLMsの一般的なコード生成能力に与える影響が少ないことです。我々はReCodeを様々なLLMsおよび強化学習アルゴリズム（GRPOおよびDAPO）に適用し、一貫した改善が確認されました。特に訓練後、Qwen2.5-Coder-7Bは32Bパラメータを持つコード指示微調整モデルや同じアーキテクチャを持つ推論モデルよりも優れた性能を発揮しました。コードは https://github.com/zjunlp/ReCode で利用可能です。

コードリポジトリ

zjunlp/recode

公式

pytorch

GitHubで言及

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

ReCode: 強化学習を用いたコードAPI知識の更新

Haoze Wu Yunzhi Yao Wenhao Yu Huajun Chen Ningyu Zhang

要約

コードリポジトリ

AI で AI を構築

Hyper Newsletters