HyperAI超神経
6日前

厳密な主体的ベンチマークの構築における最良の実践手法の確立

Yuxuan Zhu, Tengjun Jin, Yada Pruksachatkun, Andy Zhang, Shu Liu, Sasha Cui, Sayash Kapoor, Shayne Longpreet al
厳密な主体的ベンチマークの構築における最良の実践手法の確立
要約

ベンチマークはAIの進歩を定量的に追跡するために不可欠です。AIエージェントがますます高度化するにつれて、研究者や実務家は複雑な現実世界のタスクを評価するためのエージェンシーベンチマークを導入しています。これらのベンチマークは通常、特定の報酬設計を通じたタスク結果の評価により、エージェントの能力を測定します。しかし、私たちは多くのエージェンシーベンチマークにタスク設定や報酬設計に関する問題があることを示しています。例えば、SWE-bench Verifiedではテストケースが不足しており、TAU-benchでは空の応答を成功としてカウントしています。このような問題は、相対的な観点から最大100%までエージェントの性能を見落としたり過大評価したりする原因となる可能性があります。エージェンシーエバリューションを厳密にするために、私たちはAgentic Benchmark Checklist (ABC)を導入しました。これは、私たちのベンチマーク構築経験、ベストプラクティスの調査、および以前に報告された問題から総合的に作成した一連のガイドラインです。特に複雑な評価設計を持つCVE-Benchに適用した場合、ABCは性能の過大評価を33%削減します。