日期

7 个月前

组织

论文 URL

标签

猜测-思考-回答（Guess–Think–Answer，GTA）是由 vivo AI Lab 算法团队于 2025 年 9 月提出的，相关研究成果发表于论文「GTA: Supervised-Guided Reinforcement Learning for Text Classification with Large Language Models」。

GTA 框架的工作原理是：首先让模型生成一个初步猜测（通过交叉熵损失优化），然后对这一猜测进行反思，再生成最终答案，同时利用强化学习（RL）奖励来塑造最终输出和整个 GTA 结构的格式。该框架通过 RL 使模型能够自发地学习有效的推理模式，从而消除了对推理链进行人工标注的需求，在统一训练范式下结合了监督微调（SFT）的效率与 RL 的能力提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

猜测-思考-回答 Guess–Think–Answer

用 AI 构建 AI

HyperAI Newsletters

Command Palette

猜测-思考-回答 Guess–Think–Answer

相关百科

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

安全比对方法 Deep Aligned Visual Safety Prompt

Decomposed Forward Pass（DePass）

WorldGen

稀疏化接码树 Decoding Tree Sketching

SoCE 类专家 Soup

指纹识别方法 iSeal

稠密检索器 Dense Retriever

用 AI 构建 AI

HyperAI Newsletters

Command Palette

猜测-思考-回答 Guess–Think–Answer

相关百科

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

安全比对方法 Deep Aligned Visual Safety Prompt

Decomposed Forward Pass（DePass）

WorldGen

稀疏化接码树 Decoding Tree Sketching

SoCE 类专家 Soup

指纹识别方法 iSeal

稠密检索器 Dense Retriever

用 AI 构建 AI

HyperAI Newsletters

相关百科

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

安全比对方法 Deep Aligned Visual Safety Prompt

Decomposed Forward Pass（DePass）

WorldGen

稀疏化接码树 Decoding Tree Sketching

SoCE 类专家 Soup

指纹识别方法 iSeal

稠密检索器 Dense Retriever

相关百科

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

安全比对方法 Deep Aligned Visual Safety Prompt

Decomposed Forward Pass（DePass）

WorldGen

稀疏化接码树 Decoding Tree Sketching

SoCE 类专家 Soup

指纹识别方法 iSeal

稠密检索器 Dense Retriever