Search for a command to run...
GTR : Le renforcement par la pensée guidée (Guided Thought Reinforcement) prévient l'effondrement de la pensée dans l'entraînement d'un Agent VLM basé sur le RL