HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 7 jours

P1 : Maîtrise des Olympiades de physique à l’aide de l’apprentissage par renforcement

P1 : Maîtrise des Olympiades de physique à l’aide de l’apprentissage par renforcement

Résumé

Les progrès récents des grands modèles linguistiques (LLM) ont poussé les frontières du domaine de la résolution de puzzles vers un raisonnement de qualité scientifique — celui qui permet de traiter des problèmes dont les réponses doivent résister à la réalité naturelle, et non simplement satisfaire un barème. La physique constitue le test le plus exigeant de cette évolution, car elle relie les symboles à la réalité de manière fondamentale, servant de pilier à la plupart des technologies modernes. Dans ce travail, nous parvenons à faire avancer la recherche en physique en développant des grands modèles linguistiques dotés de capacités exceptionnelles de raisonnement physique, particulièrement performants dans la résolution de problèmes de niveau olympique. Nous introduisons P1, une famille de modèles open-source de raisonnement physique entraînés entièrement par apprentissage par renforcement (RL). Parmi eux, P1-235B-A22B est le premier modèle open-source à obtenir une performance de médaille d'or à l'International Physics Olympiad (IPhO 2025), remportant 12 médailles d'or sur 13 concours internationaux et régionaux en 2024/2025. P1-30B-A3B dépasse également presque tous les autres modèles open-source sur l'IPhO 2025, obtenant une médaille d'argent. En outre, doté d’un cadre agissant nommé PhysicsMinions, le modèle P1-235B-A22B+PhysicsMinions atteint le classement général n°1 à l’IPhO 2025 et obtient la moyenne la plus élevée sur l’ensemble des 13 concours de physique. Par ailleurs, les modèles P1 montrent également d’excellentes performances sur d’autres tâches de raisonnement, telles que les mathématiques et la programmation, démontrant ainsi une grande généralisation au sein de la série P1.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
P1 : Maîtrise des Olympiades de physique à l’aide de l’apprentissage par renforcement | Articles de recherche | HyperAI