Search for a command to run...
Pref-GRPO : GRPO basé sur la récompense de préférence par paires pour un apprentissage par renforcement texte-image stable