HyperAIHyperAI

Command Palette

Search for a command to run...

Parallel-R1 : Vers une pensée parallèle par apprentissage par renforcement

Résumé

La pensée parallèle s’est imposée comme une approche novatrice visant à renforcer les capacités de raisonnement des grands modèles linguistiques (LLM) en explorant simultanément plusieurs chemins de raisonnement. Toutefois, activer ces capacités par l’entraînement reste un défi, les méthodes existantes s’appuyant principalement sur une adaptation supervisée (SFT) sur des données synthétiques, ce qui favorise une imitation contrainte par le modèle enseignant plutôt que l’exploration et la généralisation. À la différence de ces approches, nous proposons Parallel-R1, le premier cadre d’apprentissage par renforcement (RL) permettant aux modèles d’adopter des comportements de pensée parallèle dans des tâches de raisonnement complexes du monde réel. Notre cadre met en œuvre un curriculum progressif qui traite explicitement le problème du « démarrage froid » lors de l’entraînement de la pensée parallèle en RL. Nous commençons par une phase de SFT appliquée à des trajectoires générées à partir de prompts sur des tâches plus simples, afin d’instaurer la capacité de pensée parallèle, puis passons à l’RL pour explorer et généraliser cette compétence sur des problèmes plus difficiles. Des expérimentations menées sur divers benchmarks mathématiques, notamment MATH, AMC23 et AIME, montrent que Parallel-R1 parvient effectivement à instaurer la pensée parallèle, entraînant une amélioration de 8,4 % en précision par rapport au modèle de pensée séquentielle entraîné directement sur des tâches complexes via l’RL. Une analyse approfondie révèle un changement clair dans le comportement de raisonnement du modèle : à un stade précoce, il utilise la pensée parallèle comme stratégie d’exploration, tandis qu’à un stade ultérieur, il exploite cette même capacité pour une vérification multi-perspective. Plus significativement, nous validons la pensée parallèle comme un scaffold d’exploration intermédiaire durant l’entraînement : cette phase exploratoire temporaire permet d’atteindre un plafond de performance supérieur après l’RL, avec une amélioration de 42,9 % par rapport à la base sur AIME25. Notre modèle, les données et le code seront rendus open source à l’adresse suivante : https://github.com/zhengkid/Parallel-R1.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp