8ヶ月前

コード生成

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Zheyuan Yang Zexi Kuang Xue Xia Yilun Zhao

概要

私たちは、テストケース生成における大規模言語モデル（LLM）の系統的な評価のための新しいベンチマークであるTestCase-Evalを紹介します。TestCase-Evalには、Codeforcesプラットフォームから収集された500のアルゴリズム問題と10万の人間が作成したソリューションが含まれています。このベンチマークは2つの重要なタスクに焦点を当てています：(1) 故障カバレッジ（Fault Coverage）、これはLLMによって生成されたテストセットが多様な入力シナリオを探り、潜在的な故障モードの広い範囲をカバーするか否かを測定します。(2) 故障露出（Fault Exposure）、これはLLMが特定の誤ったコード実装を明らかにするためにカスタマイズされたテスト入力を設計できるかどうかを評価します。私たちは、 TestCase-Eval上で19種類の最先端のオープンソースおよびプロプライエタリーなLLMを包括的に評価し、アルゴリズム問題に対する効果的なテストケース生成におけるそれらの強みと限界について洞察を提供しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

コード生成

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Zheyuan Yang Zexi Kuang Xue Xia Yilun Zhao

概要

私たちは、テストケース生成における大規模言語モデル（LLM）の系統的な評価のための新しいベンチマークであるTestCase-Evalを紹介します。TestCase-Evalには、Codeforcesプラットフォームから収集された500のアルゴリズム問題と10万の人間が作成したソリューションが含まれています。このベンチマークは2つの重要なタスクに焦点を当てています：(1) 故障カバレッジ（Fault Coverage）、これはLLMによって生成されたテストセットが多様な入力シナリオを探り、潜在的な故障モードの広い範囲をカバーするか否かを測定します。(2) 故障露出（Fault Exposure）、これはLLMが特定の誤ったコード実装を明らかにするためにカスタマイズされたテスト入力を設計できるかどうかを評価します。私たちは、 TestCase-Eval上で19種類の最先端のオープンソースおよびプロプライエタリーなLLMを包括的に評価し、アルゴリズム問題に対する効果的なテストケース生成におけるそれらの強みと限界について洞察を提供しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

大規模言語モデル（LLM）はアルゴリズム問題のための高品質なテストケースを生成できるか？ TestCase-Eval: 故障カバレッジとエクスポージャの体系的な評価 | 記事 | HyperAI超神経