Article - SofT-GRPO : Dépasser l'apprentissage par renforcement des modèles linguistiques à tokens discrets grâce à l'optimisation de politique à pensée douce réparamétrée par Gumbel | Articles | HyperAI