Command Palette
Search for a command to run...
Haoze Wu Yunzhi Yao Wenhao Yu Huajun Chen Ningyu Zhang

要約
大規模言語モデル(LLMs)は優れたコード生成能力を示していますが、外部ライブラリAPIの頻繁な更新に適応する際には失敗することがあります。この重要な制限は、訓練データから得られる古いAPIの知識への依存から生じており、最新のドキュメンテーションにアクセスできる即使っても、動的な環境での信頼性のあるコード生成を阻害します。この問題に対処するために、我々はReCode(ルールベースの強化学習によるコード更新)という新しいフレームワークを提案します。これは、人間のプログラマがAPI変更に適応する方法を模倣したものです。具体的には、約2,000件のデータエントリから構成されるデータセットを作成し、LLMsが更新された情報を基にバージョン移行を行うように訓練します。次に、コード評価のために修正された文字列類似度指標を導入し、これが強化学習の報酬となります。実験結果は、ReCodeが動的なAPIシナリオにおけるLLMsのコード生成性能を大幅に向上させることを示しており、特に未見のCodeUpdateArenaタスクにおいて顕著です。重要な点は、教師あり微調整と比較して、ReCodeがLLMsの一般的なコード生成能力に与える影響が少ないことです。我々はReCodeを様々なLLMsおよび強化学習アルゴリズム(GRPOおよびDAPO)に適用し、一貫した改善が確認されました。特に訓練後、Qwen2.5-Coder-7Bは32Bパラメータを持つコード指示微調整モデルや同じアーキテクチャを持つ推論モデルよりも優れた性能を発揮しました。コードは https://github.com/zjunlp/ReCode で利用可能です。
コードリポジトリ
zjunlp/recode
公式
pytorch
GitHubで言及