6ヶ月前

概要

大規模言語モデル（LLM）は、コード生成分野で顕著な進展を遂げており、単一パスでのコード生成を越えて、最近の研究ではユニットテストやプログラム検証器をLLMに統合し、反復的に生成されたプログラムを精緻化するアプローチが採用されている。しかしながら、これらの研究は生成されたプログラムを不可分な実体として扱うため、特に複雑な論理フローおよびデータ操作を含むプログラムのデバッグにおいて、LLMの能力が十分に発揮されないという課題がある。これに対して、人間の開発者がプログラムをデバッグする際には、通常、ブレークポイントを設定し、実行時における情報を選択的に確認する。実行フローおよび中間変数の値は、デバッグプロセスにおいて極めて重要な役割を果たすが、現行のコード生成に関する研究ではこれらが十分に活用されていない。本研究では、ランタイム実行情報を用いてLLMが自身が生成したプログラムを精緻化できる新たなデバッグフレームワーク「Large Language Model Debugger（LDB）」を提案する。具体的には、LDBはプログラムを基本ブロックに分割し、実行時における各ブロックごとに中間変数の値を追跡する。これにより、LLMは全体の実行フローの中でより単純なコード単位に焦点を当て、タスク仕様に対してブロック単位で正しさを検証し、潜在的なエラーを効率的に特定できる。実験の結果、LDBはHumanEval、MBPP、TransCoderの各ベンチマークにおいて、ベースライン性能を最大9.8%向上させ、さまざまなLLMの選択において、コードデバッグ分野で新たな最良性能（SOTA）を達成した。

ソースPDF