Command Palette
Search for a command to run...
Parallel-R1 : Vers une pensée parallèle par apprentissage par renforcement
Parallel-R1 : Vers une pensée parallèle par apprentissage par renforcement
Résumé
La pensée parallèle s’est imposée comme une approche novatrice visant à renforcer les capacités de raisonnement des grands modèles linguistiques (LLM) en explorant simultanément plusieurs chemins de raisonnement. Toutefois, activer ces capacités par l’entraînement reste un défi, les méthodes existantes s’appuyant principalement sur une adaptation supervisée (SFT) sur des données synthétiques, ce qui favorise une imitation contrainte par le modèle enseignant plutôt que l’exploration et la généralisation. À la différence de ces approches, nous proposons Parallel-R1, le premier cadre d’apprentissage par renforcement (RL) permettant aux modèles d’adopter des comportements de pensée parallèle dans des tâches de raisonnement complexes du monde réel. Notre cadre met en œuvre un curriculum progressif qui traite explicitement le problème du « démarrage froid » lors de l’entraînement de la pensée parallèle en RL. Nous commençons par une phase de SFT appliquée à des trajectoires générées à partir de prompts sur des tâches plus simples, afin d’instaurer la capacité de pensée parallèle, puis passons à l’RL pour explorer et généraliser cette compétence sur des problèmes plus difficiles. Des expérimentations menées sur divers benchmarks mathématiques, notamment MATH, AMC23 et AIME, montrent que Parallel-R1 parvient effectivement à instaurer la pensée parallèle, entraînant une amélioration de 8,4 % en précision par rapport au modèle de pensée séquentielle entraîné directement sur des tâches complexes via l’RL. Une analyse approfondie révèle un changement clair dans le comportement de raisonnement du modèle : à un stade précoce, il utilise la pensée parallèle comme stratégie d’exploration, tandis qu’à un stade ultérieur, il exploite cette même capacité pour une vérification multi-perspective. Plus significativement, nous validons la pensée parallèle comme un scaffold d’exploration intermédiaire durant l’entraînement : cette phase exploratoire temporaire permet d’atteindre un plafond de performance supérieur après l’RL, avec une amélioration de 42,9 % par rapport à la base sur AIME25. Notre modèle, les données et le code seront rendus open source à l’adresse suivante : https://github.com/zhengkid/Parallel-R1.