HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 15 heures

Agent de raisonnement à horizon long pour la résolution de problèmes mathématiques de niveau olympique

Agent de raisonnement à horizon long pour la résolution de problèmes mathématiques de niveau olympique

Résumé

Les modèles linguistiques massifs (LLM) ont accompli des progrès significatifs dans la résolution de tâches de raisonnement complexes grâce à l’apprentissage par renforcement avec récompenses vérifiables (RLVR). Cette avancée repose également sur une supervision automatisée assurée par des vérificateurs fiables. Toutefois, les vérificateurs actuels basés sur les résultats (OVs) sont incapables d’inspecter les étapes intermédiaires peu fiables présentes dans les longues chaînes de raisonnement (CoTs). Par ailleurs, les vérificateurs basés sur le processus (PVs) rencontrent des difficultés à détecter de manière fiable les erreurs dans les longues chaînes de raisonnement complexes, en raison du manque de données d’étiquetage de haute qualité, lui-même contraint par les coûts prohibitifs des étiquetages humains. Ainsi, nous proposons un nouveau vérificateur, le Vérificateur de Processus basé sur les Résultats (OPV), qui valide le processus de justification à partir de résultats synthétisés issus de longues chaînes de raisonnement, afin d’assurer une vérification à la fois précise et efficace, tout en permettant une annotation à grande échelle. Pour renforcer ce vérificateur, nous adoptons un cadre d’apprentissage actif itératif, combinant des annotations d’experts, afin d’améliorer progressivement la capacité de vérification de l’OPV tout en minimisant les coûts d’étiquetage. Plus précisément, à chaque itération, les cas les plus incertains identifiés par le meilleur OPV actuel sont annotés, puis utilisés pour entraîner un nouvel OPV via une fine-tuning par rejet (RFT) et le RLVR, pour la phase suivante. Des expériences étendues démontrent les performances supérieures et la large applicabilité de l’OPV. Celui-ci atteint de nouveaux états de l’art sur notre benchmark détenu hisbench, surpassant des modèles open-source bien plus volumineux comme Qwen3-Max-Preview, avec un score F1 de 83,1 contre 76,3. En outre, l’OPV détecte efficacement les faux positifs dans les jeux de données synthétiques, en accord étroit avec les évaluations d’experts. Lorsqu’il est combiné à des modèles politiques, l’OPV génère systématiquement des gains de performance : par exemple, il améliore le taux de précision de DeepSeek-R1-Distill-Qwen-32B de 55,2 % à 73,3 % sur AIME2025, en fonction de l’augmentation du budget de calcul.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Agent de raisonnement à horizon long pour la résolution de problèmes mathématiques de niveau olympique | Articles de recherche | HyperAI