HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 heures

Apprendre à effectuer de la Retrieval à partir de Trajectoires d'Agent

Yuqi Zhou Sunhao Dai Changle Qu Liang Pang Jun Xu Ji-Rong Wen

Résumé

Voici la traduction de votre texte en français, réalisée selon vos exigences de rigueur scientifique et de terminologie technique :Les systèmes de recherche d'information (Information Retrieval - IR) ont traditionnellement été conçus et entraînés pour des utilisateurs humains, les méthodes de learning-to-rank s'appuyant fortement sur des journaux d'interactions humaines à grande échelle, tels que les clics et le temps de lecture (dwell time). Cependant, avec l'émergence rapide des agents de recherche propulsés par les LLM, la recherche est de plus en plus consommée par des agents plutôt que par des êtres humains, et s'intègre comme une composante centrale au sein de boucles de raisonnement et d'action multi-tours. Dans ce contexte, les modèles de recherche entraînés sous des hypothèses centrées sur l'humain présentent un décalage fondamental avec la manière dont les agents émettent des requêtes et consomment les résultats. Dans ce travail, nous soutenons que les modèles de recherche destinés à la recherche agentique (agentic search) devraient être entraînés directement à partir de données d'interaction d'agents. Nous introduisons le learning to retrieve from agent trajectories comme un nouveau paradigme d'entraînement, où la supervision est dérivée d'interactions d'agents à plusieurs étapes. Grâce à une analyse systématique des trajectoires d'agents de recherche, nous identifions des signaux comportementaux clés révélant l'utilité des documents, notamment les actions de navigation (browsing actions), les rejets sans consultation (unbrowsed rejections) et les traces de raisonnement post-consultation (post-browse reasoning traces). Guidés par ces observations, nous proposons LRAT, un framework simple mais efficace qui extrait une supervision de recherche de haute qualité à partir des trajectoires d'agents et intègre l'intensité de la pertinence via une optimisation pondérée. Des expériences approfondies sur des benchmarks de recherche approfondie (deep research) in-domain et out-of-domain démontrent que les retrieveurs entraînés avec LRAT améliorent systématiquement le rappel de preuves (evidence recall), le succès des tâches de bout en bout (end-to-end task success) et l'efficacité d'exécution à travers diverses architectures et échelles d'agents. Nos résultats soulignent que les trajectoires d'agents constituent une source de supervision pratique et scalable, ouvrant une voie prometteuse pour la recherche à l'ère de la recherche agentique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp