Search for a command to run...
Optimisation de la politique en liste : RLVR basé sur les groupes comme projection cible sur le simplexe de la réponse du LLM