Search for a command to run...
List-basierte Politikoptimierung: Gruppenbasierte RLVR als Zielprojektion auf das LLM-Antwort-Simplex