Command Palette
Search for a command to run...
Apprendre à effectuer de la Retrieval à partir de Trajectoires d'Agent
Apprendre à effectuer de la Retrieval à partir de Trajectoires d'Agent
Yuqi Zhou Sunhao Dai Changle Qu Liang Pang Jun Xu Ji-Rong Wen
Résumé
Voici la traduction de votre texte en français, réalisée selon vos exigences de rigueur scientifique et de terminologie technique :Les systèmes de recherche d'information (Information Retrieval - IR) ont traditionnellement été conçus et entraînés pour des utilisateurs humains, les méthodes de learning-to-rank s'appuyant fortement sur des journaux d'interactions humaines à grande échelle, tels que les clics et le temps de lecture (dwell time). Cependant, avec l'émergence rapide des agents de recherche propulsés par les LLM, la recherche est de plus en plus consommée par des agents plutôt que par des êtres humains, et s'intègre comme une composante centrale au sein de boucles de raisonnement et d'action multi-tours. Dans ce contexte, les modèles de recherche entraînés sous des hypothèses centrées sur l'humain présentent un décalage fondamental avec la manière dont les agents émettent des requêtes et consomment les résultats. Dans ce travail, nous soutenons que les modèles de recherche destinés à la recherche agentique (agentic search) devraient être entraînés directement à partir de données d'interaction d'agents. Nous introduisons le learning to retrieve from agent trajectories comme un nouveau paradigme d'entraînement, où la supervision est dérivée d'interactions d'agents à plusieurs étapes. Grâce à une analyse systématique des trajectoires d'agents de recherche, nous identifions des signaux comportementaux clés révélant l'utilité des documents, notamment les actions de navigation (browsing actions), les rejets sans consultation (unbrowsed rejections) et les traces de raisonnement post-consultation (post-browse reasoning traces). Guidés par ces observations, nous proposons LRAT, un framework simple mais efficace qui extrait une supervision de recherche de haute qualité à partir des trajectoires d'agents et intègre l'intensité de la pertinence via une optimisation pondérée. Des expériences approfondies sur des benchmarks de recherche approfondie (deep research) in-domain et out-of-domain démontrent que les retrieveurs entraînés avec LRAT améliorent systématiquement le rappel de preuves (evidence recall), le succès des tâches de bout en bout (end-to-end task success) et l'efficacité d'exécution à travers diverses architectures et échelles d'agents. Nos résultats soulignent que les trajectoires d'agents constituent une source de supervision pratique et scalable, ouvrant une voie prometteuse pour la recherche à l'ère de la recherche agentique.