日期

3 个月前

组织

论文 URL

标签

思维引导的强化学习框架（Guided Thought Reinforcement，简称 GTR），由清华大学、腾讯和北京大学的研究人员于 2025 年 7 月 11 日提出。相关研究成果发表于论文 GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training 。

GTR 是一种结合自动纠错与强化学习的简单且可扩展的框架，主要用于解决视觉语言模型（VLM）智能体在复杂视觉环境中进行多步决策时，因仅依赖结果奖励而导致的「思维崩溃」问题。该框架通过引入自动纠错器，在强化学习的每一步评估并改进智能体的推理，无需密集的人工逐点标注就能同时实现推理和动作的同步训练。研究成果表明， GTR 有效抑制了思维崩溃，显著增强了模型（如 LLaVA-7B）在各种视觉环境下的表现和泛化能力；在 24 点游戏和具身任务等复杂场景中，使模型以更小的参数量实现了比现有最优模型高出 3 到 5 倍的任务成功率。

部署中学习 Learning While Deploying

LWD 是一种舰队级离线到在线强化学习框架，使通用机器人持续收集经验并实现策略的自我进化。

2 个月前

Peak-Return Greedy Slicing

PRGS 显著增强了离线强化学习模型拼接高回报经验的能力。

3 个月前

光学字符识别 OCR

OCR 将图片中的文字转化为可编辑文本，是文档数字化与信息自动化提取的核心基石。

2 天前

稠密检索器 Dense Retriever

稠密检索器负责从海量文档库中快速找出与查询语义最相关的段落，是检索增强生成系统的核心基础组件。

3 个月前

空间理论 Theory of Space

空间理论是指智能体通过主动探索在不完全信息环境中构建、更新并利用空间信念的能力框架。

3 个月前

语音增强 Speech Enhancement

语音增强是抑制噪声与混响以改善退化语音的技术，广泛用于语音识别前置处理与助听设备。

2 天前

联邦学习 Federated Learning

一种将训练数据保留在本地设备，仅通过汇总本地计算的模型更新来训练共享全局模型的去中心化机器学习方法。

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

3 个月前

组织

论文 URL

标签

部署中学习 Learning While Deploying

LWD 是一种舰队级离线到在线强化学习框架，使通用机器人持续收集经验并实现策略的自我进化。

2 个月前

Peak-Return Greedy Slicing

PRGS 显著增强了离线强化学习模型拼接高回报经验的能力。

3 个月前

光学字符识别 OCR

OCR 将图片中的文字转化为可编辑文本，是文档数字化与信息自动化提取的核心基石。

2 天前

稠密检索器 Dense Retriever

稠密检索器负责从海量文档库中快速找出与查询语义最相关的段落，是检索增强生成系统的核心基础组件。

3 个月前

空间理论 Theory of Space

空间理论是指智能体通过主动探索在不完全信息环境中构建、更新并利用空间信念的能力框架。

3 个月前

语音增强 Speech Enhancement

语音增强是抑制噪声与混响以改善退化语音的技术，广泛用于语音识别前置处理与助听设备。

2 天前

联邦学习 Federated Learning

一种将训练数据保留在本地设备，仅通过汇总本地计算的模型更新来训练共享全局模型的去中心化机器学习方法。

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

用 AI 构建 AI

HyperAI Newsletters

相关百科

部署中学习 Learning While Deploying

Peak-Return Greedy Slicing

光学字符识别 OCR

稠密检索器 Dense Retriever

空间理论 Theory of Space

语音增强 Speech Enhancement

联邦学习 Federated Learning

用 AI 构建 AI

HyperAI Newsletters

相关百科

部署中学习 Learning While Deploying

Peak-Return Greedy Slicing

光学字符识别 OCR

稠密检索器 Dense Retriever

空间理论 Theory of Space

语音增强 Speech Enhancement

联邦学习 Federated Learning

用 AI 构建 AI

HyperAI Newsletters

相关百科

部署中学习 Learning While Deploying

Peak-Return Greedy Slicing

光学字符识别 OCR

稠密检索器 Dense Retriever

空间理论 Theory of Space

语音增强 Speech Enhancement

联邦学习 Federated Learning

相关百科

部署中学习 Learning While Deploying

Peak-Return Greedy Slicing

光学字符识别 OCR

稠密检索器 Dense Retriever

空间理论 Theory of Space

语音增强 Speech Enhancement

联邦学习 Federated Learning

Command Palette

思维引导的强化学习框架 Guided Thought Reinforcement

用 AI 构建 AI

HyperAI Newsletters

Command Palette

思维引导的强化学习框架 Guided Thought Reinforcement

相关百科

部署中学习 Learning While Deploying

Peak-Return Greedy Slicing

光学字符识别 OCR

稠密检索器 Dense Retriever

空间理论 Theory of Space

语音增强 Speech Enhancement

联邦学习 Federated Learning

用 AI 构建 AI

HyperAI Newsletters

Command Palette

思维引导的强化学习框架 Guided Thought Reinforcement

相关百科

部署中学习 Learning While Deploying

Peak-Return Greedy Slicing

光学字符识别 OCR

稠密检索器 Dense Retriever

空间理论 Theory of Space

语音增强 Speech Enhancement

联邦学习 Federated Learning

用 AI 构建 AI

HyperAI Newsletters

相关百科

部署中学习 Learning While Deploying

Peak-Return Greedy Slicing

光学字符识别 OCR

稠密检索器 Dense Retriever

空间理论 Theory of Space

语音增强 Speech Enhancement

联邦学习 Federated Learning

相关百科

部署中学习 Learning While Deploying

Peak-Return Greedy Slicing

光学字符识别 OCR

稠密检索器 Dense Retriever

空间理论 Theory of Space

语音增强 Speech Enhancement

联邦学习 Federated Learning