Search for a command to run...
Pref-GRPO: Paarweiser Präferenz-Reward-basierter GRPO für stabiles Text-zu-Bild-Reinforcement-Learning