Command Palette
Search for a command to run...
思维引导的强化学习框架 Guided Thought Reinforcement
思维引导的强化学习框架(Guided Thought Reinforcement,简称 GTR),由清华大学、腾讯和北京大学的研究人员于 2025 年 7 月 11 日提出。相关研究成果发表于论文 GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training 。
GTR 是一种结合自动纠错与强化学习的简单且可扩展的框架,主要用于解决视觉语言模型(VLM)智能体在复杂视觉环境中进行多步决策时,因仅依赖结果奖励而导致的「思维崩溃」问题。该框架通过引入自动纠错器,在强化学习的每一步评估并改进智能体的推理,无需密集的人工逐点标注就能同时实现推理和动作的同步训练。研究成果表明, GTR 有效抑制了思维崩溃,显著增强了模型(如 LLaVA-7B)在各种视觉环境下的表现和泛化能力;在 24 点游戏和具身任务等复杂场景中,使模型以更小的参数量实现了比现有最优模型高出 3 到 5 倍的任务成功率。