HyperAIHyperAI

Command Palette

Search for a command to run...

4時間前

Agent TrajectoriesからのRetrievalを学習する

Yuqi Zhou Sunhao Dai Changle Qu Liang Pang Jun Xu Ji-Rong Wen

概要

ご指定いただいた指示に従い、提供された英文を専門的な技術・学術スタイル(日本語)で翻訳いたしました。翻訳文情報検索(Information Retrieval, IR)システムは、従来、人間のユーザーを対象として設計・学習されてきました。そのため、Learning-to-rank(学習によるランキング)手法は、クリックや滞在時間といった大規模な人間のインタラクションログに大きく依存してきました。しかし、Large Language Model (LLM) を搭載した検索Agentの急速な台頭により、検索は人間ではなくAgentによって消費されることが増えており、多段階の推論(reasoning)およびアクションのループにおける中核的なコンポーネントとして組み込まれています。このような状況下において、人間中心の仮定に基づき学習された検索モデルは、Agentによるクエリ発行および結果の消費プロセスとの間に根本的なミスマッチが生じています。本研究では、Agent主導の検索(agentic search)のための検索モデルは、Agentのインタラクションデータから直接学習されるべきであると主張します。我々は、多段階のAgentインタラクションから教師信号(supervision)を導き出す、「Agentの軌跡(trajectories)からの学習による検索(learning to retrieve from agent trajectories)」という新しい学習パラダイムを導入します。検索Agentの軌跡を体系的に分析することで、我々はドキュメントの有用性を示す重要な行動シグナルを特定しました。これには、閲覧アクション、閲覧されなかった拒絶、および閲覧後の推論トレース(reasoning traces)が含まれます。これらの知見に基づき、我々は「LRAT」を提案します。これは、Agentの軌跡から高品質な検索用教師信号をマイニングし、重み付き最適化を通じて関連性の強度(relevance intensity)を組み込む、シンプルかつ効果的なフレームワークです。ドメイン内およびドメイン外のディープリサーチ(deep research)ベンチマークを用いた広範な実験により、LRATで学習されたリトリーバーは、多様なAgentのアーキテクチャやスケールにおいて、エビデンスの再現率(recall)、エンドツーエンドのタスク成功率、および実行効率を一貫して向上させることが実証されました。本研究の結果は、Agentの軌跡が実用的かつスケーラブルな教師信号のソースであることを示しており、Agent主導の検索時代における検索技術の有望な方向性を提示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています