il y a 5 mois

Xixi Wu Kuan Li Yida Zhao Liwen Zhang Litu Ou Huifeng Yin Zhongwang Zhang Yong Jiang Pengjun Xie Fei Huang

Résumé

Les agents web fondés sur les grands modèles linguistiques (LLM) font preuve d’une performance remarquable sur les tâches exigeant une grande quantité de connaissances, mais ils sont freinés par les limitations de la fenêtre contextuelle dans des paradigmes tels que ReAct. Les requêtes complexes impliquant plusieurs entités, des relations imbriquées et un haut degré d’incertitude nécessitent des cycles de recherche étendus, qui épuisent rapidement le budget contextuel avant d’aboutir à une solution complète. Pour surmonter ce défi, nous introduisons ReSum, un nouveau paradigme permettant une exploration illimitée grâce à une synthèse périodique du contexte. ReSum transforme les historiques d’interaction en croissance en états de raisonnement compacts, tout en préservant la conscience des découvertes antérieures, tout en contournant les contraintes liées à la fenêtre contextuelle. Pour adapter ce paradigme, nous proposons ReSum-GRPO, qui intègre GRPO (Generalized Reward Policy Optimization) à une formation par trajectoires segmentées et à une diffusion d’avantage afin de familiariser les agents avec le raisonnement conditionné aux résumés. Des expériences étendues menées sur des agents web de tailles variées, sur trois benchmarks, montrent que ReSum améliore de manière moyenne de 4,5 % le résultat de ReAct, avec des gains supplémentaires allant jusqu’à 8,2 % après formation avec ReSum-GRPO. Notamment, avec seulement 1 000 échantillons d’entraînement, notre WebResummer-30B (version entraînée avec ReSum-GRPO de WebSailor-30B) atteint 33,3 % de taux de réussite Pass@1 sur BrowseComp-zh et 18,3 % sur BrowseComp-en, dépassant ainsi les agents web open source existants.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Agent

Reasoning

Génération Augmentée Par La Recherche

Approche/Framework

Xixi Wu Kuan Li Yida Zhao Liwen Zhang Litu Ou Huifeng Yin Zhongwang Zhang Yong Jiang Pengjun Xie Fei Huang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Agent

Reasoning

Génération Augmentée Par La Recherche

Approche/Framework

Xixi Wu Kuan Li Yida Zhao Liwen Zhang Litu Ou Huifeng Yin Zhongwang Zhang Yong Jiang Pengjun Xie Fei Huang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Résumé : Déverrouiller l'intelligence de recherche à long terme grâce à la synthèse de contexte

Xixi Wu Kuan Li Yida Zhao Liwen Zhang Litu Ou Huifeng Yin Zhongwang Zhang Yong Jiang Pengjun Xie Fei Huang4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Résumé : Déverrouiller l'intelligence de recherche à long terme grâce à la synthèse de contexte

Xixi Wu Kuan Li Yida Zhao Liwen Zhang Litu Ou Huifeng Yin Zhongwang Zhang Yong Jiang Pengjun Xie Fei Huang4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Résumé : Déverrouiller l'intelligence de recherche à long terme grâce à la synthèse de contexte

Xixi Wu Kuan Li Yida Zhao Liwen Zhang Litu Ou Huifeng Yin Zhongwang Zhang Yong Jiang Pengjun Xie Fei Huang4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Xixi Wu Kuan Li Yida Zhao Liwen Zhang Litu Ou Huifeng Yin Zhongwang Zhang Yong Jiang Pengjun Xie Fei Huang

Xixi Wu Kuan Li Yida Zhao Liwen Zhang Litu Ou Huifeng Yin Zhongwang Zhang Yong Jiang Pengjun Xie Fei Huang

Xixi Wu Kuan Li Yida Zhao Liwen Zhang Litu Ou Huifeng Yin Zhongwang Zhang Yong Jiang Pengjun Xie Fei Huang