Command Palette

Search for a command to run...

6日前

InteractComp:曖昧なクエリを用いた検索エージェントの評価

InteractComp:曖昧なクエリを用いた検索エージェントの評価

要約

言語エージェントは、ウェブ検索および情報検出において顕著な可能性を示している。しかし、こうした検索エージェントは、ユーザーのクエリが完全かつ曖昧さがないものであると仮定しているが、実際の利用状況では、ユーザーは不完全なクエリから出発し、対話によって意味を明確化する必要がある。現状では、多くのエージェントは検索プロセス中に対話機構を備えておらず、そのような能力を評価できる既存のベンチマークも存在しない。このギャップを埋めるために、本研究では「InteractComp」というベンチマークを提案する。このベンチマークは、検索エージェントがクエリの曖昧さを認識し、検索中に積極的に対話によって解決できるかどうかを評価することを目的としている。検証しやすく、対話によって曖昧さを解消するという原則に基づき、9つの分野にわたり、210の専門家が選定した質問を、ターゲット・ドリスラクター法を用いて構築した。この手法により、対話によってのみ解消可能な本物の曖昧さを再現している。17のモデルを評価した結果、著しい失敗が明らかになった。完全な文脈が与えられた場合、最良のモデルでも71.50%の正解率を達成するが、対話の必要性がある状況では、正解率はわずか13.73%にとどまり、これは推論能力の欠如というより、体系的な過信に起因するものであることが示された。対話の強制が行われた場合、正解率は劇的に向上し、従来の戦略では引き出せなかった潜在的な能力が確認された。長期的な分析により、15か月間にわたり対話能力は停滞している一方で、検索性能は7倍に向上していることが明らかになり、この分野における重大な盲点が浮き彫りになった。この停滞状態は、検索タスクに内在する即時フィードバックの性質と相まって、InteractCompが検索エージェントの対話能力の評価および訓練に極めて有効なリソースであることを示している。コードは https://github.com/FoundationAgents/InteractComp で公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
InteractComp:曖昧なクエリを用いた検索エージェントの評価 | 論文 | HyperAI超神経