SSRL : apprentissage par renforcement par recherche auto-contrôlée

Nous étudions le potentiel des grands modèles linguistiques (LLM) en tant que simulateurs efficaces pour les tâches de recherche agente en apprentissage par renforcement (RL), réduisant ainsi la dépendance aux interactions coûteuses avec des moteurs de recherche externes. À cette fin, nous quantifions d’abord la capacité intrinsèque de recherche des LLM via une mise en forme structurée des prompts et un échantillonnage répété, que nous appelons Self-Search. Nos résultats révèlent que les LLM présentent un comportement d’échelle fort en fonction du budget d’inférence, atteignant des performances élevées en termes de pass@k sur des benchmarks de réponse à questions, y compris la tâche exigeante BrowseComp. À partir de ces observations, nous introduisons Self-Search RL (SSRL), qui renforce la capacité de Self-Search des LLM grâce à des récompenses basées sur le format et des règles. Le SSRL permet aux modèles d’affiner itérativement leur utilisation des connaissances internes, sans nécessiter l’accès à des outils externes. Des évaluations empiriques montrent que les modèles politiques entraînés avec SSRL offrent un environnement économique et stable pour l’entraînement du RL piloté par la recherche, réduisant la dépendance aux moteurs de recherche externes et favorisant un transfert robuste du simulé vers le réel. Nous tirons les conclusions suivantes : 1) les LLM détiennent des connaissances sur le monde pouvant être efficacement sollicitées pour atteindre de hauts niveaux de performance ; 2) le SSRL démontre le potentiel d’exploiter les connaissances internes pour réduire les hallucinations ; 3) les modèles entraînés avec SSRL s’intègrent naturellement aux moteurs de recherche externes sans effort supplémentaire. Nos résultats mettent en lumière le potentiel des LLM à soutenir un entraînement d’agents RL plus évolutif.