HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 22 jours

R-Horizon : Jusqu'où votre modèle de raisonnement massif peut-il réellement aller en ampleur et en profondeur ?

Yi Lu Jianing Wang Linsen Guo Wei He Hongyin Tang Tao Gui Xuanjing Huang Xuezhi Cao Wei Wang Xunliang Cai

R-Horizon : Jusqu'où votre modèle de raisonnement massif peut-il réellement aller en ampleur et en profondeur ?

Résumé

Les tendances récentes en matière d’échelonnement au moment du test pour les modèles de raisonnement (tels que OpenAI o1, DeepSeek-R1) ont permis des progrès remarquables grâce à des chaînes de raisonnement longues (Chain-of-Thought, CoT). Toutefois, les évaluations existantes se concentrent principalement sur des tâches immédiates et à horizon unique, ne permettant pas une évaluation adéquate de la capacité des modèles à comprendre et à répondre à des scénarios complexes et à long terme. Pour pallier cette évaluation incomplète des grands modèles de raisonnement (Large Reasoning Models, LRMs), nous proposons R-HORIZON, une méthode conçue pour stimuler des comportements de raisonnement à long horizon chez les LRMs par composition de requêtes. À partir de R-HORIZON, nous avons construit une base d’évaluation dédiée au raisonnement à long horizon, composée de tâches complexes nécessitant plusieurs étapes de raisonnement interdépendantes, s’étendant sur de longues durées de raisonnement. Une évaluation approfondie des LRMs à l’aide de cette base R-HORIZON révèle que même les modèles les plus avancés subissent une dégradation significative de leurs performances. Une analyse détaillée montre que les LRMs présentent une longueur effective de raisonnement limitée et peinent à allouer efficacement leur « budget de réflexion » entre plusieurs problèmes. Conscients de ces limites, nous utilisons R-HORIZON pour générer des données de raisonnement à long horizon destinées à l’apprentissage par renforcement avec récompenses vérifiées (Reinforcement Learning with Verified Rewards, RLVR). Comparé à l’entraînement sur des données à horizon unique, l’approche RLVR basée sur R-HORIZON améliore non seulement de manière significative les performances sur les tâches de raisonnement multi-horizon, mais renforce également l’exactitude sur les tâches standards de raisonnement, avec une augmentation de 7,5 points sur AIME2024. Ces résultats positionnent R-HORIZON comme une approche évolutive, contrôlable et à faible coût pour améliorer et évaluer les capacités de raisonnement à long horizon des LRMs.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
R-Horizon : Jusqu'où votre modèle de raisonnement massif peut-il réellement aller en ampleur et en profondeur ? | Articles de recherche | HyperAI