Command Palette
Search for a command to run...
Search-o1 : Modèles de raisonnement massifs améliorés par une recherche agente
Search-o1 : Modèles de raisonnement massifs améliorés par une recherche agente
Xiaoxi Li Guanting Dong Jiajie Jin Yuyao Zhang Yujia Zhou Yutao Zhu Peitian Zhang Zhicheng Dou
Résumé
Les grands modèles de raisonnement (LRM), tels qu’OpenAI-o1, ont démontré des capacités impressionnantes de raisonnement étendu et étape par étape grâce à un apprentissage par renforcement à grande échelle. Toutefois, leurs processus de raisonnement prolongés souffrent souvent d’un manque de connaissances, entraînant des incertitudes fréquentes et des erreurs potentielles. Pour remédier à cette limitation, nous introduisons Search-o1, un cadre qui améliore les LRMs grâce à un mécanisme de génération augmentée par récupération (RAG) agissant de manière autonome, ainsi qu’un module Reason-in-Documents conçu pour affiner les documents récupérés. Search-o1 intègre un flux de travail de recherche autonome dans le processus de raisonnement, permettant une récupération dynamique de connaissances externes lorsque les LRMs rencontrent des points de connaissance incertains. En outre, en raison de la longueur des documents récupérés, nous avons conçu un module distinct, Reason-in-Documents, pour analyser en profondeur les informations récupérées avant leur injection dans la chaîne de raisonnement, réduisant ainsi le bruit et préservant un flux de raisonnement cohérent. Des expérimentations étendues sur des tâches complexes de raisonnement en sciences, mathématiques et programmation, ainsi que sur six benchmarks de questions-réponses à domaine ouvert, démontrent la performance élevée de Search-o1. Cette approche renforce la fiabilité et l’applicabilité des LRMs dans les tâches de raisonnement complexes, ouvrant la voie à des systèmes intelligents plus fiables et polyvalents. Le code est disponible à l’adresse suivante : https://github.com/sunnynexus/Search-o1.