Search for a command to run...
Combinaison de l’optimisation on-policy et de la distillation pour le raisonnement à long contexte dans les grands modèles de langage