Search for a command to run...
GDPO : Optimisation de politique à normalisation déconnectée par récompense groupée pour l'optimisation de RL à multi-récompenses