Command Palette
Search for a command to run...
Fondements du apprentissage par renforcement pour les systèmes de recherche profonde : Une revue

Résumé
Les systèmes de recherche approfondie, constitués d’intelligences artificielles agentes capables de résoudre des tâches complexes et à plusieurs étapes grâce à une coordination entre raisonnement, recherche sur le web ouvert et fichiers utilisateurs, ainsi qu’usage d’outils, évoluent vers des déploiements hiérarchiques comprenant un Planificateur, un Coordinateur et des Exécutants. En pratique, former l’ensemble de la chaîne d’un seul tenant reste peu réaliste ; aussi, la plupart des travaux se concentrent sur l’entraînement d’un seul planificateur connecté à des outils fondamentaux tels que la recherche, la navigation web ou l’exécution de code. Bien que l’apprentissage supervisé par imitation (SFT) assure une fidélité au protocole, il souffre de biais d’imitation et d’exposition, et sous-exploite les retours de l’environnement. Les méthodes d’alignement par préférences, telles que DPO, sont dépendantes de schémas et de proxy, hors politique (off-policy), et peu efficaces pour l’attribution de crédit à long terme et les compromis entre objectifs multiples. Une limitation supplémentaire du SFT et du DPO réside dans leur dépendance vis-à-vis de points de décision et de sous-compétences définis par l’humain, via la conception de schémas et des comparaisons étiquetées. L’apprentissage par renforcement, lui, s’aligne parfaitement avec la recherche en interaction outils-boucle fermée en optimisant des politiques au niveau des trajectoires, permettant ainsi l’exploration, des comportements de récupération, une attribution de crédit rigoureuse, tout en réduisant la dépendance aux a priori humains et aux biais des évaluateurs.À notre connaissance, cette revue constitue la première consacrée exclusivement aux fondements de l’apprentissage par renforcement (RL) dans les systèmes de recherche approfondie. Elle systématise les travaux postérieurs à DeepSeek-R1 selon trois axes : (i) la synthèse et la curation des données ; (ii) les méthodes d’apprentissage par renforcement pour la recherche agente, couvrant la stabilité, l’efficacité échantillonnale, la gestion du contexte long, la conception de récompenses et d’attribution de crédit, l’optimisation multi-objectifs et l’intégration multimodale ; et (iii) les systèmes et cadres d’entraînement d’agents agents par renforcement. Nous abordons également l’architecture des agents et la coordination, ainsi que l’évaluation et les benchmarks, incluant des tâches récentes telles que les questions-réponses (QA), les questions-réponses visuelles (VQA), la synthèse de texte long, et des tâches ancrées dans des domaines spécifiques avec interaction d’outils. Nous identifions des motifs récurrents, mettons en évidence les goulets d’étranglement de l’infrastructure, et proposons des recommandations pratiques pour former des agents de recherche approfondie robustes et transparents à l’aide de l’apprentissage par renforcement.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.