Command Palette
Search for a command to run...
Claw-Eval: 自律的な Agent の信頼できる評価に向けて
Claw-Eval: 自律的な Agent の信頼できる評価に向けて
概要
ご提示いただいた英文は、LLM(Large Language Models)をエージェントとして評価するための新しいベンチマーク「Claw-Eval」に関する学術的な抄録です。ご指定の通り、テクノロジー分野の専門的なトーンを維持し、AI関連の専門用語(LLM, Agent, pipeline等)は英語のまま保持しつつ、日本語で翻訳いたしました。翻訳文Large Language Models(LLM)は、現実世界のソフトウェア環境においてマルチステップのワークフローを実行する自律的なAgentとして、導入が進んでいます。しかし、既存のAgentベンチマークには、主に3つの重大な限界が存在します。(1) 最終的な出力のみを確認する「軌跡(trajectory)の不透明な評価」、(2) 安全性と堅牢性(robustness)に関する評価の定義不足、(3) モダリティの範囲とインタラクション・パラダイムの狭さ、です。本論文では、これら3つの課題をすべて解決するエンドツーエンドの評価スイート「Claw-Eval」を提案します。Claw-Evalは、3つのグループ(汎用的なサービス・オーケストレーション、マルチモーダルな知覚および生成、マルチターンの専門的な対話)にわたる9つのカテゴリ、計300の人間による検証済みタスクで構成されています。すべてのAgentのアクションは、3つの独立したエビデンスチャネル(実行トレース、監査ログ、環境のスナップショット)を通じて記録され、2,159項目のきめ細かなルーブリックに基づいた「軌跡を考慮した評価(trajectory-aware grading)」を可能にします。スコアリング・プロトコルでは、完了度(Completion)、安全性(Safety)、および堅牢性(Robustness)を評価し、3回の試行における平均スコア、Pass@k、およびPass^kを報告することで、真の能力と偶然の結果を区別します。14種類の最先端モデルを用いた実験により、以下のことが明らかになりました。(1) 軌跡を考慮しない評価は体系的に信頼性が低く、我々のハイブリッドなpipelineが検知した安全性の違反の44%、および堅牢性の失敗の13%を見逃していること。(2) 制御されたエラー注入は、ピーク時の能力よりも主に一貫性を低下させるものであり、Pass^3が最大24%低下する一方でPass@3は安定していること。(3) マルチモーダルな性能には大きな開きがあり、ほとんどのモデルにおいてビデオに対する性能はドキュメントや画像よりも低く、すべてのモダリティにおいて圧倒的に優れている単一のモデルは存在しないこと。ベンチマークの提示に留まらず、Claw-EvalはAgent開発における実行可能な方向性を提示しており、単に「能力が高い」だけでなく、「信頼性を持ってデプロイ可能」なAgentを構築するために何が必要であるかを明らかにしています。