Command Palette
Search for a command to run...
P1 : Maîtrise des Olympiades de physique à l’aide de l’apprentissage par renforcement

Résumé
Les progrès récents des grands modèles linguistiques (LLM) ont poussé les frontières du domaine de la résolution de puzzles vers un raisonnement de qualité scientifique — celui qui permet de traiter des problèmes dont les réponses doivent résister à la réalité naturelle, et non simplement satisfaire un barème. La physique constitue le test le plus exigeant de cette évolution, car elle relie les symboles à la réalité de manière fondamentale, servant de pilier à la plupart des technologies modernes. Dans ce travail, nous parvenons à faire avancer la recherche en physique en développant des grands modèles linguistiques dotés de capacités exceptionnelles de raisonnement physique, particulièrement performants dans la résolution de problèmes de niveau olympique. Nous introduisons P1, une famille de modèles open-source de raisonnement physique entraînés entièrement par apprentissage par renforcement (RL). Parmi eux, P1-235B-A22B est le premier modèle open-source à obtenir une performance de médaille d'or à l'International Physics Olympiad (IPhO 2025), remportant 12 médailles d'or sur 13 concours internationaux et régionaux en 2024/2025. P1-30B-A3B dépasse également presque tous les autres modèles open-source sur l'IPhO 2025, obtenant une médaille d'argent. En outre, doté d’un cadre agissant nommé PhysicsMinions, le modèle P1-235B-A22B+PhysicsMinions atteint le classement général n°1 à l’IPhO 2025 et obtient la moyenne la plus élevée sur l’ensemble des 13 concours de physique. Par ailleurs, les modèles P1 montrent également d’excellentes performances sur d’autres tâches de raisonnement, telles que les mathématiques et la programmation, démontrant ainsi une grande généralisation au sein de la série P1.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.