8ヶ月前

概要

大規模言語モデル（LLM）の優れた性能は、コード生成への応用に関する広範な議論を引き起こしています。最近の研究では、可視テストを通じた継続的なプログラム改良が、LLMにおけるコード生成精度の向上に寄与すると示唆されています。しかし、これらの方法はLLMの非効率性と限られた推論能力により制約を受けているのが現状です。本研究では、初期のコード生成とその後の改良を構造化された二段階ワークフローで改善することを目指したLLMプログラミングワークフロー（LPW）を提案します。具体的には、ソリューション生成フェーズにおいて解決策計画が策定され、その後可視テストによって自然言語での解決策が確認されます。次に、コード実装フェーズにおいて解決策計画とその確認に基づいて初期コードが作成されます。生成されたコードが可視テストに失敗した場合、計画確認が意図した解決策として一貫して改良プロセスを指導し、バグの修正を行います。既存の各種LLMにおける最先端手法と比較して、LPWは確立されたテキストからコードへの生成ベンチマークにおいて最大16.4%のPass@1精度向上を達成しました。また、GPT-4oを基盤として使用することで、HumanEvalで98.2%、MBPPで84.8%、LiveCodeで59.3%、APPSで62.6%、CodeContestで34.7%という新たな最先端のPass@1精度を設定しています。当方のコードは公開されており、以下のURLからアクセスできます：https://github.com/you68681/lpw

ソースPDF