Recherche-o1 : Modèles de Raisonnement Grand Échelle Améliorés par la Recherche Agente

Les grands modèles de raisonnement (GMRs) tels qu'OpenAI-o1 ont démontré des capacités impressionnantes de raisonnement en plusieurs étapes à long terme grâce à l'apprentissage par renforcement à grande échelle. Cependant, leurs processus de raisonnement prolongés souffrent souvent d'une insuffisance de connaissances, entraînant des incertitudes fréquentes et des erreurs potentielles. Pour remédier à cette limitation, nous présentons Search-o1, un cadre qui améliore les GMRs avec un mécanisme de génération augmentée par la recherche (RAG) agente et un module Reason-in-Documents pour affiner les documents récupérés. Search-o1 intègre un flux de travail de recherche agente au processus de raisonnement, permettant une récupération dynamique de connaissances externes lorsque les GMRs rencontrent des points de connaissance incertains. De plus, en raison du caractère verbeux des documents récupérés, nous avons conçu un module Reason-in-Documents distinct pour analyser en profondeur les informations récupérées avant de les injecter dans la chaîne de raisonnement, minimisant le bruit et préservant un flux cohérent de raisonnement. Des expériences approfondies sur des tâches complexes de raisonnement dans les domaines scientifiques, mathématiques et informatiques, ainsi que sur six benchmarks d'interrogation ouverte, démontrent les performances solides de Search-o1. Cette approche renforce la fiabilité et l'applicabilité des GMRs dans les tâches complexes de raisonnement, ouvrant la voie à des systèmes intelligents plus fiables et polyvalents. Le code est disponible à l'adresse suivante : https://github.com/sunnynexus/Search-o1.