HyperAIHyperAI

Command Palette

Search for a command to run...

思维引导的强化学习框架 Guided Thought Reinforcement

日期

4 小时前

组织

Tsinghua University(清华大学)
腾讯

论文 URL

2503.08525

思维引导的强化学习框架(Guided Thought Reinforcement,简称 GTR),由清华大学、腾讯和北京大学的研究人员于 2025 年 7 月 11 日提出。相关研究成果发表于论文 GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

GTR 是一种结合自动纠错与强化学习的简单且可扩展的框架,主要用于解决视觉语言模型(VLM)智能体在复杂视觉环境中进行多步决策时,因仅依赖结果奖励而导致的「思维崩溃」问题。该框架通过引入自动纠错器,在强化学习的每一步评估并改进智能体的推理,无需密集的人工逐点标注就能同时实现推理和动作的同步训练。研究成果表明, GTR 有效抑制了思维崩溃,显著增强了模型(如 LLaVA-7B)在各种视觉环境下的表现和泛化能力;在 24 点游戏和具身任务等复杂场景中,使模型以更小的参数量实现了比现有最优模型高出 3 到 5 倍的任务成功率。




用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供