HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Résumé : Déverrouiller l'intelligence de recherche à long terme grâce à la synthèse de contexte

Résumé : Déverrouiller l'intelligence de recherche à long terme grâce à la synthèse de contexte

Résumé

Les agents web fondés sur les grands modèles linguistiques (LLM) font preuve d’une performance remarquable sur les tâches exigeant une grande quantité de connaissances, mais ils sont freinés par les limitations de la fenêtre contextuelle dans des paradigmes tels que ReAct. Les requêtes complexes impliquant plusieurs entités, des relations imbriquées et un haut degré d’incertitude nécessitent des cycles de recherche étendus, qui épuisent rapidement le budget contextuel avant d’aboutir à une solution complète. Pour surmonter ce défi, nous introduisons ReSum, un nouveau paradigme permettant une exploration illimitée grâce à une synthèse périodique du contexte. ReSum transforme les historiques d’interaction en croissance en états de raisonnement compacts, tout en préservant la conscience des découvertes antérieures, tout en contournant les contraintes liées à la fenêtre contextuelle. Pour adapter ce paradigme, nous proposons ReSum-GRPO, qui intègre GRPO (Generalized Reward Policy Optimization) à une formation par trajectoires segmentées et à une diffusion d’avantage afin de familiariser les agents avec le raisonnement conditionné aux résumés. Des expériences étendues menées sur des agents web de tailles variées, sur trois benchmarks, montrent que ReSum améliore de manière moyenne de 4,5 % le résultat de ReAct, avec des gains supplémentaires allant jusqu’à 8,2 % après formation avec ReSum-GRPO. Notamment, avec seulement 1 000 échantillons d’entraînement, notre WebResummer-30B (version entraînée avec ReSum-GRPO de WebSailor-30B) atteint 33,3 % de taux de réussite Pass@1 sur BrowseComp-zh et 18,3 % sur BrowseComp-en, dépassant ainsi les agents web open source existants.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Résumé : Déverrouiller l'intelligence de recherche à long terme grâce à la synthèse de contexte | Articles de recherche | HyperAI