Command Palette
Search for a command to run...
LoongRL : Apprentissage par renforcement pour un raisonnement avancé sur des contextes longs
Siyuan Wang Gaokai Zhang Li Lyna Zhang Ning Shang Fan Yang Dongyao Chen Mao Yang

Résumé
Le raisonnement sur des contextes longs est essentiel pour les grands modèles linguistiques. Bien que l'apprentissage par renforcement (RL) améliore le raisonnement sur de courts contextes en induisant des « moments d’illumination » dans les chaînes de pensée, les schémas de raisonnement avancés requis pour le raisonnement sur de longs contextes restent largement inexplorés, et les données de RL à haute difficulté sont rares. Dans cet article, nous introduisons LoongRL, une méthode de RL pilotée par des données pour le raisonnement avancé sur de longs contextes. L'élément central de LoongRL est KeyChain, une approche de synthèse qui transforme des tâches de question-réponse à plusieurs sauts (multi-hop) courtes en tâches à long contexte de haute difficulté en insérant des chaînes d'identifiants uniques (UUID) qui dissimulent la vraie question au sein d'importants ensembles de documents perturbateurs. La résolution de ces tâches exige que le modèle suive pas à pas la bonne chaîne, identifie la vraie question, récupère les faits pertinents et raisonne sur ceux-ci pour fournir une réponse correcte. L'entraînement par RL sur des données KeyChain induit un schéma de raisonnement émergent — planifier-récupérer-raisonner-vérifier — qui se généralise largement au-delà de la longueur d'entraînement. Les modèles entraînés sur 16K parviennent à résoudre efficacement des tâches de 128K, sans coûts prohibitifs liés à des évolutions complètes (rollout) en longueur entière. Sur Qwen2.5-7B et 14B, LoongRL améliore de manière significative l'exactitude du raisonnement multi-hop sur de longs contextes, avec des gains absolus de +23,5 % et +21,1 % respectivement. Le modèle LoongRL-14B obtient ainsi un score de 74,2, rivalisant avec des modèles de pointe bien plus volumineux tels qu'o3-mini (74,5) et DeepSeek-R1 (74,9). Il améliore également le raisonnement de récupération sur de longs contextes, réussit tous les tests d'endurance de type « aiguille dans une botte de foin » à 128K, et préserve les capacités de raisonnement sur de courts contextes.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.