HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 15 heures

OPV : Vérificateur de Processus Axé sur les Résultats pour une Vérification Efficace des Chaînes Longues de Raisonnement

OPV : Vérificateur de Processus Axé sur les Résultats pour une Vérification Efficace des Chaînes Longues de Raisonnement

Résumé

Les modèles linguistiques massifs (LLM) ont accompli des progrès significatifs dans la résolution de tâches de raisonnement complexes grâce à l’apprentissage par renforcement à récompenses vérifiables (RLVR). Ce progrès s’inscrit également dans une logique d’automatisation fiable des vérifications, mais les vérificateurs actuels basés sur les résultats (OVs) sont incapables d’inspecter les étapes intermédiaires douteuses dans les longues chaînes de raisonnement (CoTs). D’un autre côté, les vérificateurs basés sur le processus (PVs) peinent à détecter de manière fiable les erreurs dans les longues CoTs complexes, en raison du manque de données d’étiquetage de haute qualité, conséquence des coûts prohibitifs liés à l’annotation humaine. Ainsi, nous proposons le Vérificateur de Processus basé sur le Résultat (OPV), qui vérifie le processus de justification à partir de synthèses de résultats issues de longues CoTs, permettant ainsi une vérification à la fois précise et efficace, tout en facilitant l’annotation à grande échelle. Pour renforcer ce vérificateur, nous adoptons un cadre d’apprentissage actif itératif, enrichi par des annotations d’experts, afin d’améliorer progressivement la capacité de vérification d’OPV avec un coût d’annotation réduit. Plus précisément, à chaque itération, les cas les plus incertains identifiés par le meilleur OPV actuel sont annotés, puis utilisés pour entraîner un nouvel OPV via une fine-tuning par rejet (RFT) et RLVR, en vue de la prochaine itération. Des expérimentations étendues démontrent les performances supérieures et la large applicabilité d’OPV. Il atteint de nouveaux records sur notre benchmark OPV-Bench, surpassant des modèles open-source bien plus volumineux comme Qwen3-Max-Preview, avec un score F1 de 83,1 contre 76,3. En outre, OPV détecte efficacement les faux positifs dans les jeux de données synthétiques, en accord étroit avec les évaluations d’experts. Lorsqu’il est associé à des modèles politiques, OPV génère systématiquement des gains de performance, par exemple en portant la précision de DeepSeek-R1-Distill-Qwen-32B de 55,2 % à 73,3 % sur AIME2025, à mesure que le budget de calcul augmente.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp