2ヶ月前
Mind2Web 2: エージェントによる評価とエージェントとしての審判
Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, et al

要約
エージェント型検索システム、例えば大規模言語モデルが自立的にウェブを閲覧し、情報を統合して包括的な引用付き回答を返すディープリサーチシステムは、ユーザーがウェブスケールの情報とどのように対話するかに大きな変革をもたらしています。効率性の向上や認知的負荷の軽減が期待される一方で、エージェント型検索の複雑さと開放性は既存の評価ベンチマークや手法を上回る速度で進化しており、これらの手法は主に短期的な検索範囲と静的な回答を前提としています。本論文では、リアルタイムのウェブ閲覧と広範な情報統合を必要とする130以上の現実的で高品質かつ長期的なタスクから構成され、1,000時間を超える人間の労力によって作成された新しいベンチマーク「Mind2Web 2」を紹介します。時間とともに変動し複雑な回答の評価という課題に対処するために、私たちは新たな「Agent-as-a-Judge(エージェント・アズ・ア・ジャッジ)」フレームワークを提案します。この方法は、木構造に基づく評価基準設計によりタスク固有の審査エージェントを作成し、自動的に回答の正確性と情報源の帰属を評価します。私たちは9つの最先端エージェント型検索システムと人間のパフォーマンスについて包括的な評価を行い、詳細な誤り分析を通じて将来の開発に向けた洞察を得ました。最も高性能なシステムであるOpenAI Deep Researchは、人間のパフォーマンスの50-70%を達成しながら半分以下の時間で動作できることを示しており、大きな可能性を持っています。総じて、「Mind2Web 2」は次世代エージェント型検索システムを開発およびベンチマーク化するための厳密な基礎を提供します。