HyperAIHyperAI

Command Palette

Search for a command to run...

ThinkTwice : Optimisation conjointe des Large Language Models pour le raisonnement et l'auto-raffinage (Self-Refinement).

Difan Jiao Qianfeng Wen Blair Yang Zhenwei Tang Ashton Anderson

Résumé

Voici la traduction de votre texte en français, adaptée au style de la communication scientifique et technologique :Nous présentons ThinkTwice, un framework simple en deux phases qui optimise conjointement les LLMs pour résoudre des problèmes de raisonnement et affiner leurs réponses, en s'appuyant sur l'algorithme Group Relative Policy Optimization (GRPO). Au cours de chaque paire d'étapes d'entraînement, ThinkTwice optimise d'abord le modèle sur la résolution de problèmes de raisonnement, puis l'optimise sur l'affinage (refinement) de ses propres solutions pour ces mêmes problèmes. Les deux phases utilisent la même récompense binaire de correction (binary correctness reward), sans nécessiter de signaux de correction ou d'annotations de critique.Sur cinq benchmarks de raisonnement mathématique et deux familles de modèles, incluant Qwen3-4B et Olmo3-7B, ThinkTwice améliore considérablement les performances de raisonnement et d'affinage par rapport aux baselines compétitives d'optimisation de politique en ligne (online policy optimization). Plus précisément, sur Qwen3-4B, ThinkTwice surpasse GRPO sur l'AIME de 5 points de pourcentage avant l'étape de refinement, et de 11,5 points après une étape d'auto-refinement (mesuré via le score pass@4).L'analyse de la dynamique d'entraînement de ThinkTwice révèle un curriculum implicite de type « rectifier puis renforcer » (rectify-then-fortify) : le refinement corrige principalement les erreurs au début de l'entraînement, puis évolue naturellement vers la préservation des solutions déjà correctes à mesure que le modèle s'améliore, générant ainsi un signal de récompense plus rectifié. Nos travaux établissent que l'entraînement conjoint du raisonnement et de l'auto-refinement constitue une méthodologie rigoureuse et efficace pour le RLVR (Reinforcement Learning from Verifiable Rewards).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp