Chine : Un nouveau cadre d’optimisation pour les grands modèles par apprentissage par renforcement basé sur l’information
Récemment, une équipe de recherche du Institut de logiciels de l'Académie des sciences chinoise s'est attelée à l'optimisation des grands modèles linguistiques (LLMs) dans les tâches de raisonnement complexes. Elle a proposé un nouveau cadre de fine-tuning par apprentissage par renforcement basé sur la théorie de l'information, nommé Learning to Think (L2T). Ce cadre vise à équilibrer efficacité et performance du raisonnement, offrant ainsi une nouvelle voie technologique pour améliorer le raisonnement des LLMs dans des applications concrètes. À mesure que les capacités des LLMs s'élargissent, leurs usages se sont étendus au-delà des tâches de traitement du langage naturel basiques, pour inclure des problèmes exigeant un raisonnement logique en plusieurs étapes. Cependant, les modèles actuels s'appuient principalement sur la qualité du résultat final comme signal de récompense, sans fournir de retour immédiat sur les étapes intermédiaires du raisonnement. Cette approche conduit à des calculs redondants, à une consommation inutile de ressources, et parfois même à une dégradation de la performance globale. Le cadre L2T repense ce problème en modélisant le processus de raisonnement comme une conversation hiérarchique en plusieurs tours. Il intègre une mécanique de récompense dense, fondée sur la théorie de l'information, qui évalue, à chaque étape, l'apport d'information apporté par le raisonnement. En combinant cette métrique avec une version améliorée de l'algorithme GRPO, L2T encourage les étapes de raisonnement pertinentes et pénalise les générations superflues, permettant ainsi un contrôle fin du parcours de raisonnement. Les évaluations menées sur des benchmarks de raisonnement tels que AIME, AMC et HumanEval montrent que L2T améliore de manière stable les performances sur plusieurs modèles de différentes tailles, notamment DeepScaleR-1.5B-Preview, DeepSeek-R1-Distill-Qwen-1.5B. Comparé aux méthodes basées uniquement sur la récompense finale, L2T améliore l'exactitude de plus de 3,2 % tout en doublant l'efficacité en termes de tokens. Même par rapport aux approches utilisant déjà des récompenses intermédiaires, L2T obtient une augmentation d'environ 2 % en précision et une amélioration de 1,2 fois en efficacité. De plus, dans des évaluations multi-tâches couvrant des niveaux de difficulté variés, L2T réalise une amélioration moyenne de près de 3 % en précision, tout en maintenant un avantage stable quel que soit le budget de tokens disponible. Ces résultats démontrent la robustesse et la généralisation du cadre proposé. La recherche a été présentée à NeurIPS 2025, l'une des conférences les plus prestigieuses en intelligence artificielle, marquant une avancée significative dans l'optimisation du raisonnement des grands modèles linguistiques.
