LAPO : L'optimisation adaptative de la politique par l'intégration de l'efficacité du raisonnement

Les grands modèles de raisonnement ont obtenu des performances remarquables grâce à des séquences étendues de pensée, mais cette liberté computationnelle entraîne une génération excessive de tokens même pour des problèmes simples. Nous présentons Length-Adaptive Policy Optimization (LAPO), un cadre novateur qui transforme le contrôle de la longueur du raisonnement d'une contrainte externe en une capacité intrinsèque du modèle. Contrairement aux approches existantes qui imposent des limites rigides ou s'appuient sur des interventions post-hoc, LAPO permet aux modèles d'intégrer une compréhension de la profondeur de raisonnement appropriée via un processus de renforcement en deux étapes. Dans la première étape, les modèles apprennent les schémas naturels de raisonnement en découvrant la distribution statistique des longueurs de solutions réussies. La deuxième étape utilise ces schémas comme guidance méta-cognitive, les intégrant directement dans le contexte de raisonnement du modèle afin d'assurer une flexibilité pendant l'inférence. Des expériences sur des benchmarks de raisonnement mathématique montrent que LAPO réduit l'utilisation de tokens de jusqu'à 40,9 % tout en améliorant l'exactitude de 2,3 %. Notre analyse révèle que les modèles entraînés avec LAPO développent des capacités émergentes pour allouer les ressources computationnelles en fonction de la complexité du problème, permettant ainsi un raisonnement efficace sans compromettre la qualité.