Command Palette
Search for a command to run...
IterResearch : Repenser les agents à horizon long par reconstruction d'état markovienne

Résumé
Les avancées récentes des agents de recherche profonde ont montré un réel potentiel pour la construction autonome de connaissances grâce à un raisonnement dynamique sur des sources externes. Toutefois, les approches existantes reposent sur un paradigme mono-contextuel qui accumule toutes les informations dans une seule fenêtre contextuelle en expansion, entraînant une saturation contextuelle et une contamination par le bruit, ce qui limite leur efficacité sur les tâches à horizon long. Nous introduisons IterResearch, un nouveau paradigme itératif de recherche profonde, qui reformule la recherche à horizon long comme un processus de décision markovien avec une reconstruction stratégique de l’espace de travail. En maintenant un rapport évoluant comme mémoire et en synthétisant périodiquement les insights, notre approche préserve une capacité de raisonnement cohérente sur des profondeurs d’exploration arbitraires. Nous développons également une politique d’optimisation consciente de l’efficacité (Efficiency-Aware Policy Optimization, EAPO), un cadre d’apprentissage par renforcement qui incite à une exploration efficace grâce à un discount géométrique des récompenses, et permet un entraînement distribué stable via un sous-échantillonnage adaptatif. Des expérimentations étendues montrent qu’IterResearch obtient des améliorations substantielles par rapport aux agents open-source existants, avec une augmentation moyenne de +14,5 points de pourcentage sur six benchmarks, et réduit l’écart par rapport aux systèmes propriétaires de pointe. De manière remarquable, notre paradigme présente une scalabilité d’interaction sans précédent, s’étendant jusqu’à 2048 interactions avec des gains de performance spectaculaires (passant de 3,5 % à 42,5 %), et se révèle une stratégie d’instruction efficace, améliorant les modèles de pointe jusqu’à 19,2 points de pourcentage par rapport à ReAct sur les tâches à horizon long. Ces résultats positionnent IterResearch comme une solution polyvalente pour le raisonnement à horizon long, efficace à la fois en tant qu’agent entraîné et en tant que paradigme d’instruction pour les modèles de pointe.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.