13日前

CODESIM：シミュレーション駆動型計画とデバッグを活用したマルチエージェントコード生成と問題解決

Md. Ashraful Islam, Mohammed Eunus Ali, Md Rizwan Parvez

要約

大規模言語モデル（LLMs）は、コード生成および問題解決の分野で顕著な進展を遂げている。現在のアプローチでは、コンパイラやその他のツールを活用したランタイムフィードバックを用いて、さまざまな手法で生成された粗いプログラムを反復的に修正する外部ツールベースのイテレーティブデバッガーが用いられている。しかし、これらのアプローチの有効性は、初期のコード生成の品質に大きく依存しており、その改善は依然として未解決の課題である。本論文では、人間の認知プロセスに倣ったアプローチにより、プログラム合成・計画、コーディング、デバッグの各段階を包括的に扱う新しいマルチエージェント型コード生成フレームワーク「CodeSim」を提案する。人間がアルゴリズムの理解を視覚的シミュレーションを通じて検証するように、CodeSimは入出力のステップバイステップシミュレーションを用いた計画の検証および内部デバッグという独自の手法を特徴としている。7つの挑戦的な競技的問題解決およびプログラム合成ベンチマークにおける広範な実験により、CodeSimの優れたコード生成能力が実証された。本フレームワークは、新たなSOTA（state-of-the-art）成績を達成しており、各ベンチマークにおけるpass@1スコアは、HumanEvalで95.1%、MBPPで90.7%、APPSで22%、CodeContestsで29.1%である。さらに、外部デバッガーと段階的に連携させることで、さらなる性能向上が期待される可能性も示唆されている。本研究分野におけるさらなる研究開発を促進するため、本フレームワークは公開されている（https://kagnlp.github.io/codesim.github.io/）。