Command Palette
Search for a command to run...
Dr. Zero : des agents de recherche auto-évoluant sans données d'entraînement
Dr. Zero : des agents de recherche auto-évoluant sans données d'entraînement
Zhenrui Yue Kartikeya Upasani Xianjun Yang Suyu Ge Shaoliang Nie Yuning Mao Zhe Liu Dong Wang
Abstract
Alors que les données de haute qualité deviennent de plus en plus difficiles à obtenir, l’autodéveloppement sans données s’est imposé comme un paradigme prometteur. Cette approche permet aux grands modèles linguistiques (LLM) de générer et de résoudre de manière autonome des problèmes complexes, améliorant ainsi leurs capacités de raisonnement. Toutefois, les agents de recherche à plusieurs tours peinent dans un cadre d’autodéveloppement sans données en raison de la faible diversité des questions et de la forte consommation de ressources informatiques nécessaire pour le raisonnement multi-étapes et l’utilisation d’outils. Dans ce travail, nous introduisons Dr. Zero, un cadre permettant aux agents de recherche de s’autodévelopper efficacement sans aucune donnée d’entraînement. Plus précisément, nous concevons une boucle de rétroaction d’autodéveloppement où un générateur de questions (proposer) produit des questions diversifiées afin d’entraîner un résolveur initialement construit à partir du même modèle de base. Au fur et à mesure que le résolveur évolue, il incite le générateur à produire des tâches de plus en plus complexes tout en restant résolvables, établissant ainsi un curriculum automatisé pour affiner les deux agents. Pour améliorer l’efficacité de l’entraînement, nous introduisons également une optimisation politique relative regroupée par sauts (HRPO). Cette méthode regroupe des questions structuralement similaires afin de construire des références au niveau du groupe, réduisant efficacement le surcoût d’échantillonnage lié à l’évaluation de la difficulté et de la résolubilité de chaque requête individuelle. En conséquence, HRPO réduit de manière significative les besoins en ressources informatiques pour l’entraînement du résolveur, sans compromettre la performance ni la stabilité. Des résultats expérimentaux étendus montrent que Dr. Zero sans données atteint ou dépasse les agents de recherche entièrement supervisés, démontrant ainsi que des capacités complexes de raisonnement et de recherche peuvent émerger uniquement par autodéveloppement.