Search for a command to run...
أصعب هو أفضل: تعزيز الاستدلال الرياضي من خلال GRPO الواعية بالصعوبة وإعادة صياغة الأسئلة متعددة الجوانب