Search for a command to run...
SofT-GRPO : Dépasser l'apprentissage par renforcement des modèles linguistiques à tokens discrets grâce à l'optimisation de politique à pensée douce réparamétrée par Gumbel