HyperAIHyperAI

Command Palette

Search for a command to run...

Console

RecGPT-V2 技术报告

Abstract

大型语言模型(LLMs)在推动推荐系统从隐式行为模式匹配向显式意图推理转变方面展现出巨大潜力。尽管RecGPT-V1通过将基于大语言模型的推理机制融入用户兴趣挖掘与物品标签预测,成功开创了这一新范式,但仍面临四大根本性挑战:(1)多条推理路径之间的计算效率低下与认知冗余;(2)固定模板生成导致的解释多样性不足;(3)在监督学习范式下泛化能力有限;(4)评估方式过于侧重结果导向,难以契合人类判断标准。为应对上述问题,我们提出RecGPT-V2,包含四项核心创新:第一,构建分层多智能体系统(Hierarchical Multi-Agent System),通过协同协作重构意图推理流程,在消除认知重复的同时实现多样化意图覆盖;结合混合表示推理(Hybrid Representation Inference)对用户行为上下文进行压缩,使框架的GPU资源消耗降低60%,专属召回率从9.39%提升至10.99%。第二,提出元提示框架(Meta-Prompting framework),动态生成情境自适应提示,将解释多样性提升7.3%。第三,引入约束强化学习机制,有效缓解多奖励冲突问题,在标签预测任务上实现24.1%的性能提升,在解释接受度方面提升13.0%。第四,设计“智能体作为裁判”(Agent-as-a-Judge)评估框架,将评估过程分解为多步推理,显著增强与人类偏好的对齐程度。在淘宝平台开展的在线A/B测试结果表明,RecGPT-V2实现显著性能提升:点击率(CTR)提升2.98%,独立访问人数(IPV)提升3.71%,转化率(TV)提升2.19%,用户意图识别准确率(NER)提升11.46%。RecGPT-V2不仅验证了基于大语言模型的意图推理在技术上的可行性,更证明了其在大规模工业场景中的商业可行性,成功弥合了认知探索与产业应用之间的鸿沟。

一句话总结

作者提出 RecGPT-V2,通过分层多智能体系统将 GPU 消耗降低 60% 并将专属召回率从 9.39% 提升至 10.99%,结合元提示技术实现解释多样性 +7.3% 的增长、约束强化学习达成标签预测 +24.1% 的增益,以及代理即裁判评估框架,在淘宝部署中验证了显著的线上效果提升,包括点击率 +2.98% 和商品详情页访问量 +3.71%。

核心贡献

  • RecGPT-V2 通过引入分层多智能体系统(Hierarchical Multi-Agent System),协调意图推理与混合表征推断以压缩用户行为上下文,解决了多路径架构中的计算低效与冗余推理问题,使 GPU 消耗降低 60% 且专属召回率从 9.39% 提升至 10.99%。
  • 为克服静态模板导致的解释同质化与时效性不足,该框架实现元提示技术(Meta-Prompting)动态生成上下文感知提示,并结合偏好感知强化学习,在线上部署中提升解释多样性 7.3% 并有效捕捉万圣节、冬季商品等季节性趋势。
  • 代理即裁判(Agent-as-a-Judge)框架以多步骤推理替代简单评估,通过约束强化学习解决奖励冲突,在淘宝 A/B 测试中实现显著线上收益:标签预测准确率 +24.1%、解释接受率 +13.0%、点击率 +2.98%。

引言

推荐系统需提供个性化解释以提升用户对推荐商品的互动意愿,但 RecGPT-V1 等基于模板的早期方法存在关键缺陷:信息密度低(重复通用语句)、无法适应季节趋势与上下文、因静态提示模板及评估框架不足导致输出风格单调。作者通过开发元提示技术动态合成上下文感知模板,结合偏好感知强化学习优化多目标建模的生成过程,将解释生成从刚性模板转向自适应推理,显著提升用户参与度与满意度。

数据集

提供的文本未包含数据集构成、来源、子集细节或处理信息。内容仅描述针对商品标题嵌入生成验证问题的系统指令,无研究论文中的数据集特征或使用方法。

方法

RecGPT-V2 采用多组件架构,通过三大核心创新——智能体意图推理、动态解释生成与智能体裁判框架——克服前代模型的计算低效、认知冗余及评估局限,所有组件均基于用户上下文的压缩混合表征运行。

系统基础层为混合表征推断(Hybrid Representation Inference),解决处理长用户行为序列时的 token 爆炸问题。RecGPT-V2 采用原子化实体压缩(Atomized Entity Compression)技术:使用预训练嵌入模型(如 BGE、Qwen3-Embedding)将商品描述与查询历史编码为稠密向量,再通过轻量可训练适配器网络投影至 LLM 输入空间,用单一原子标记 [entity] 替代多 token 描述。如图所示,该过程将 21,349 token 的用户画像压缩至 5,158 token 的混合上下文,实现 76% token 压缩率,同时以自然语言保留用户属性与时间元数据,为高效推理奠定基础。

基于此高效表征,智能体意图推理模块重构意图分解流程:RecGPT-V1 的并行孤立 LLM 路径被分层多智能体系统(HMAS)替代,包含全局规划器、分布式专家与决策仲裁器。全局规划器接收压缩后的混合上下文(含用户行为、画像及实时环境信号如天气/趋势),执行单次整体分析以分解用户意图为专业化角色集,消除 RecGPT-V1 中各路径的冗余全上下文编码。每个角色分配至专属专家智能体,基于该角色预测商品标签集;决策仲裁器则对所有专家输出进行联合推理,从候选池中筛选最终非冗余标签集供下游检索。该协同三层架构如图所示,对比 RecGPT-V1 的孤立路径与 RecGPT-V2 的协作流程。

为生成个性化且上下文自适应的解释,RecGPT-V2 引入元提示框架(Meta-Prompting)。该两阶段过程首先基于用户兴趣、商品属性及场景信号合成风格指南,指定期望语调、修辞手法与情感共鸣;第二阶段模型依据此指南生成最终解释,实现跨多样化风格角色的扮演能力。此方法突破 RecGPT-V1 固定模板限制,显著提升解释多样性。

最后,智能体裁判框架(Agentic Judge Framework)解决结果导向评估的局限。RecGPT-V2 采用多智能体评估系统:专业子评估器从多维度(如相关性、时效性、事实性)评估生成内容,高级评审智能体通过 S-A-B 三级体系(优秀/平均/差)聚合维度得分形成整体判断。该流程模拟人类认知评估,提供更精细可解释的反馈。下图展示针对商品标签预测与解释生成的多维度子评估器及三级判断流程。

为实现持续优化,系统集成"裁判即奖励"组件:通过列表式学习排序(listwise learning-to-rank)将代理即裁判的离散 S-A-B 判断转化为连续可微奖励信号,驱动强化学习优化策略模型,构建无需重复人工标注、符合人类质量标准的自增强飞轮效应。

实验

  • 在淘宝"猜你喜欢"场景开展为期两周的线上 A/B 测试,RecGPT-V2 与 RecGPT-V1 在商品及信息流推荐场景各分配 1% 流量。
  • 短期互动显著提升:商品场景达成商品详情页访问量 +3.26%、点击率 +3.01%、观看时长 +2.11%、成交总额 +3.39%、加购率 +3.47%;信息流场景点击率 +1.50%、成交总额 +1.53%。
  • 长期留存增强:商品场景新奇曝光率(NER)+11.46%、信息流场景 +4.49%,验证滤镜气泡效应缓解,14 天(+0.04%)与 30 天留存率(+0.05%)同步改善。
  • 大规模部署中 GPU 消耗降低 60% 且生成质量保持领先,整体线上收益含新奇曝光率 +11.46%。

作者在淘宝开展 RecGPT-V2 与 RecGPT-V1 的两周 A/B 测试,覆盖商品及信息流推荐场景。结果显示:商品场景达成商品详情页访问量 +3.64%、新奇曝光率 +11.46%;信息流场景点击率 +1.50%、新奇曝光率 +4.49%,14 天与 30 天留存率亦有小幅但显著提升。

作者采用两种不同奖励建模的 RecGPT-V2 变体,对比 RecGPT-V1 基线评估标签预测与解释质量。结果表明:采用列表式奖励建模的 RecGPT-V2 性能最优,标签预测 HR@30 提升至 32.60%,解释质量达 40.73%,超越基线与点式变体。

作者在商品标签预测与解释生成任务中对比 RecGPT-V2 与 V1,所有测试模型的准确率与 F1 均持续提升。标签预测中 Qwen3-SFT 增益最显著:准确率从 0.8210 升至 0.8248,F1 从 0.8095 升至 0.8228;解释生成中 Qwen3-SFT 同样领先:准确率从 0.6885 升至 0.7006,F1 从 0.6787 升至 0.7307,表明 V2 生成质量全面提升。

作者通过表格展示 RecGPT-V2 相较 V1 在推荐多样性与生成质量的提升:多样性指标从 0.631 升至 0.677,质量指标从 36.03% 升至 40.73%,表明推荐有效性与输出可靠性增强。

作者使用 HR@30 评估不同模型配置的长期用户留存,对比 RecGPT-V1 与 RecGPT-V2 变体(Base/SFT/GRPO (SUM)/GRPO (CRS))。结果表明:采用 CRS 强化学习策略的 RecGPT-V2 以 32.60% 留存率最优,超越 RecGPT-V1 (26.29%) 及其他所有 V2 变体,证明 CRS 策略最有效维持长期用户参与度。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供