Search for a command to run...
GTR: Guided Thought Reinforcement verhindert den Thought Collapse beim Training von RL-basierten VLM Agenten