13日前

AgentCoder：反復的なテストと最適化を用いたマルチエージェントベースのコード生成

Dong Huang, Jie M.Zhang, Michael Luck, Qingwen Bu, Yuhao Qing, Heming Cui

要約

自然言語処理（NLP）の進展は、トランスフォーマーに基づく大規模言語モデル（LLM）の開発により著しく促進されてきた。これらのモデルは、特にコード生成の分野でNLPタスクを革新し、開発者がソフトウェアの開発をより効率的に行えるよう支援している。しかし、コードスニペットの生成と効果的なテストケースの生成・実行のバランスを取るという課題は依然として残っている。こうした問題に対処するため、本論文では「マルチエージェントアシスタントコード生成（AgentCoder）」という新規なソリューションを提案する。AgentCoderは、専門的な役割を持つ複数のエージェントから構成されるマルチエージェントフレームワークであり、それぞれプログラマエージェント、テスト設計エージェント、テスト実行エージェントからなる。コーディングプロセス中、プログラマエージェントはテスト実行エージェントからのフィードバックを基にコードの生成と最適化に注力する。テスト設計エージェントは生成されたコードに対してテストケースを自動生成し、テスト実行エージェントはそのテストケースを用いてコードを実行し、その結果をフィードバックとしてプログラマエージェントに返却する。この協調的なシステムにより、単一エージェントモデルや従来の手法に比べてより堅牢なコード生成が実現される。本研究では、9種類のコード生成モデルおよび12種類の改善手法を対象とした広範な実験により、AgentCoderが既存のコード生成モデルやプロンプト工学技術を上回る優れた性能を発揮することを示した。例えば、AgentCoder（GPT-4）はHumanEvalおよびMBPPデータセットにおいて、それぞれ96.3%および91.8%のpass@1を達成し、トータルトークンオーバーヘッドは56.9Kおよび66.3Kにとどまる一方で、最先端手法は90.2%および78.9%のpass@1にとどまり、トータルトークンオーバーヘッドは138.2Kおよび206.5Kに達するにとどまっている。