7ヶ月前

ベンチマーク

エージェント

AIインフラストラクチャ

アプローチ／フレームワーク

Yuxuan Zhu Tengjun Jin Yada Pruksachatkun Andy Zhang Shu Liu Sasha Cui Sayash Kapoor Shayne Longpreet al

概要

ベンチマークはAIの進歩を定量的に追跡するために不可欠です。AIエージェントがますます高度化するにつれて、研究者や実務家は複雑な現実世界のタスクを評価するためのエージェンシーベンチマークを導入しています。これらのベンチマークは通常、特定の報酬設計を通じたタスク結果の評価により、エージェントの能力を測定します。しかし、私たちは多くのエージェンシーベンチマークにタスク設定や報酬設計に関する問題があることを示しています。例えば、SWE-bench Verifiedではテストケースが不足しており、TAU-benchでは空の応答を成功としてカウントしています。このような問題は、相対的な観点から最大100%までエージェントの性能を見落としたり過大評価したりする原因となる可能性があります。エージェンシーエバリューションを厳密にするために、私たちはAgentic Benchmark Checklist (ABC)を導入しました。これは、私たちのベンチマーク構築経験、ベストプラクティスの調査、および以前に報告された問題から総合的に作成した一連のガイドラインです。特に複雑な評価設計を持つCVE-Benchに適用した場合、ABCは性能の過大評価を33%削減します。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

ベンチマーク

エージェント

AIインフラストラクチャ

アプローチ／フレームワーク

Yuxuan Zhu Tengjun Jin Yada Pruksachatkun Andy Zhang Shu Liu Sasha Cui Sayash Kapoor Shayne Longpreet al

概要

ベンチマークはAIの進歩を定量的に追跡するために不可欠です。AIエージェントがますます高度化するにつれて、研究者や実務家は複雑な現実世界のタスクを評価するためのエージェンシーベンチマークを導入しています。これらのベンチマークは通常、特定の報酬設計を通じたタスク結果の評価により、エージェントの能力を測定します。しかし、私たちは多くのエージェンシーベンチマークにタスク設定や報酬設計に関する問題があることを示しています。例えば、SWE-bench Verifiedではテストケースが不足しており、TAU-benchでは空の応答を成功としてカウントしています。このような問題は、相対的な観点から最大100%までエージェントの性能を見落としたり過大評価したりする原因となる可能性があります。エージェンシーエバリューションを厳密にするために、私たちはAgentic Benchmark Checklist (ABC)を導入しました。これは、私たちのベンチマーク構築経験、ベストプラクティスの調査、および以前に報告された問題から総合的に作成した一連のガイドラインです。特に複雑な評価設計を持つCVE-Benchに適用した場合、ABCは性能の過大評価を33%削減します。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています