HyperAIHyperAI

Command Palette

Search for a command to run...

LAPO : L'optimisation adaptative de la politique par l'intégration de l'efficacité du raisonnement

Xingyu Wu Yuchen Yan Shangke Lyu Linjuan Wu Yiwen Qiu Yongliang Shen Weiming Lu Jian Shao Jun Xiao Yueting Zhuang

Résumé

Les grands modèles de raisonnement ont obtenu des performances remarquables grâce à des séquences étendues de pensée, mais cette liberté computationnelle entraîne une génération excessive de tokens même pour des problèmes simples. Nous présentons Length-Adaptive Policy Optimization (LAPO), un cadre novateur qui transforme le contrôle de la longueur du raisonnement d'une contrainte externe en une capacité intrinsèque du modèle. Contrairement aux approches existantes qui imposent des limites rigides ou s'appuient sur des interventions post-hoc, LAPO permet aux modèles d'intégrer une compréhension de la profondeur de raisonnement appropriée via un processus de renforcement en deux étapes. Dans la première étape, les modèles apprennent les schémas naturels de raisonnement en découvrant la distribution statistique des longueurs de solutions réussies. La deuxième étape utilise ces schémas comme guidance méta-cognitive, les intégrant directement dans le contexte de raisonnement du modèle afin d'assurer une flexibilité pendant l'inférence. Des expériences sur des benchmarks de raisonnement mathématique montrent que LAPO réduit l'utilisation de tokens de jusqu'à 40,9 % tout en améliorant l'exactitude de 2,3 %. Notre analyse révèle que les modèles entraînés avec LAPO développent des capacités émergentes pour allouer les ressources computationnelles en fonction de la complexité du problème, permettant ainsi un raisonnement efficace sans compromettre la qualité.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp