7ヶ月前

概要

エージェンティック検索（Agentic search）は、より自律的で適応的な検索補強の枠組みとして、知能型検索システムの進化を推進しています。しかし、既存の評価フレームワークはエージェンティック検索の目的と整合性が取れていないのが現状です。まず、現在のベンチマークで一般的に使用されている複雑なクエリは、実際のユーザー検索シナリオから乖離している場合があります。次に、従来のアプローチでは、エンドツーエンド評価における真実値（ground truth）の抽出時にノイズが混入しやすいため、細粒度での評価が歪んでしまう傾向があります。さらに、多くの既存フレームワークは最終的な回答の質に焦点を当てており、エージェンティック検索に内在する反復的プロセスの評価には十分に注力していません。これらの課題に対処するため、我々はRAVine（Reality-Aligned eValuation framework for agentic LLMs with search）という、現実に合致した評価フレームワークを提案します。RAVineは、ユーザーの意図をより正確に反映するマルチポイントクエリや長文回答を対象とし、細粒度評価の精度を高めるために帰属可能な真実値構築戦略を導入しています。さらに、RAVineはモデルが反復プロセスを通じて検索ツールとどのように相互作用するかを評価し、効率性に関連する要素も考慮しています。本研究ではRAVineを用いて複数のモデルをベンチマーキングし、いくつかの洞察を得ました。これらの洞察が、エージェンティック検索システムの発展に貢献することを期待しています。コードとデータセットは、https://github.com/SwordFaith/RAVine で公開されています。

ソースPDF コードを表示