13日前

CodeRL:事前学習モデルと深層強化学習を活用したコード生成の習得

Hung Le, Yue Wang, Akhilesh Deepak Gotmare, Silvio Savarese, Steven C.H. Hoi
CodeRL:事前学習モデルと深層強化学習を活用したコード生成の習得
要約

プログラム合成(プログラム生成)は、問題の仕様を満たすプログラムを自動生成することを目的とする。近年、大規模な事前学習済み言語モデル(LM)を用いたアプローチが有望な結果を示しているが、依然としていくつかの重要な制限を抱えている。特に、従来の手法は、自然言語による問題記述と正解プログラムのペアのみを用いて、標準的な教師あり微調整(supervised fine-tuning)によってコード生成モデルを学習する。このアプローチは、問題仕様に含まれる単体テスト(unit tests)など、重要な有用な信号をほとんど無視してしまうため、未知の複雑なコーディングタスクに対しては性能が著しく低下する傾向がある。これを解決するために、本研究では、事前学習済み言語モデルと深層強化学習(RL)を統合した新たなフレームワーク「CodeRL」を提案する。具体的には、学習フェーズにおいて、コード生成用のLMをアクター(actor)ネットワークとして扱い、生成されたプログラムの機能的正しさを予測するクライティック(critic)ネットワークを導入する。このクライティックネットワークは、アクターに対して密度の高いフィードバック信号を提供する。推論フェーズでは、例示的な単体テストとクライティックスコアに基づいて、モデルが自動的にプログラムを再生成できる新たな生成プロセスと、重要なサンプリング戦略を導入している。モデルの基盤として、CodeT5のエンコーダ・デコーダ構造を拡張し、より強化された学習目的、より大きなモデルサイズ、および質の高い事前学習データを採用した。実験の結果、本手法は挑戦的なAPPSベンチマークにおいて新たなSOTA(最良の既存手法)を達成しただけでなく、より単純なMBPPベンチマークにおいても、ゼロショット転移能力が強く、これもまた新たなSOTAを記録した。

CodeRL:事前学習モデルと深層強化学習を活用したコード生成の習得 | 最新論文 | HyperAI超神経