HyperAIHyperAI

Command Palette

Search for a command to run...

RAVine:エージェンティック検索におけるリアリティ対応評価

Yilong Xu Xiang Long Zhi Zheng Jinhua Gao

概要

エージェンティック検索(Agentic search)は、より自律的で適応的な検索補強の枠組みとして、知能型検索システムの進化を推進しています。しかし、既存の評価フレームワークはエージェンティック検索の目的と整合性が取れていないのが現状です。まず、現在のベンチマークで一般的に使用されている複雑なクエリは、実際のユーザー検索シナリオから乖離している場合があります。次に、従来のアプローチでは、エンドツーエンド評価における真実値(ground truth)の抽出時にノイズが混入しやすいため、細粒度での評価が歪んでしまう傾向があります。さらに、多くの既存フレームワークは最終的な回答の質に焦点を当てており、エージェンティック検索に内在する反復的プロセスの評価には十分に注力していません。これらの課題に対処するため、我々はRAVine(Reality-Aligned eValuation framework for agentic LLMs with search)という、現実に合致した評価フレームワークを提案します。RAVineは、ユーザーの意図をより正確に反映するマルチポイントクエリや長文回答を対象とし、細粒度評価の精度を高めるために帰属可能な真実値構築戦略を導入しています。さらに、RAVineはモデルが反復プロセスを通じて検索ツールとどのように相互作用するかを評価し、効率性に関連する要素も考慮しています。本研究ではRAVineを用いて複数のモデルをベンチマーキングし、いくつかの洞察を得ました。これらの洞察が、エージェンティック検索システムの発展に貢献することを期待しています。コードとデータセットは、https://github.com/SwordFaith/RAVine で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています