HyperAI超神経

大規模言語モデル(LLM)はアルゴリズム問題のための高品質なテストケースを生成できるか? TestCase-Eval: 故障カバレッジとエクスポージャの体系的な評価

Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao
公開日: 6/18/2025
大規模言語モデル(LLM)はアルゴリズム問題のための高品質なテストケースを生成できるか?
  TestCase-Eval: 故障カバレッジとエクスポージャの体系的な評価
要約

私たちは、テストケース生成における大規模言語モデル(LLM)の系統的な評価のための新しいベンチマークであるTestCase-Evalを紹介します。TestCase-Evalには、Codeforcesプラットフォームから収集された500のアルゴリズム問題と10万の人間が作成したソリューションが含まれています。このベンチマークは2つの重要なタスクに焦点を当てています:(1) 故障カバレッジ(Fault Coverage)、これはLLMによって生成されたテストセットが多様な入力シナリオを探り、潜在的な故障モードの広い範囲をカバーするか否かを測定します。(2) 故障露出(Fault Exposure)、これはLLMが特定の誤ったコード実装を明らかにするためにカスタマイズされたテスト入力を設計できるかどうかを評価します。私たちは、 TestCase-Eval上で19種類の最先端のオープンソースおよびプロプライエタリーなLLMを包括的に評価し、アルゴリズム問題に対する効果的なテストケース生成におけるそれらの強みと限界について洞察を提供しています。