HyperAIHyperAI

Command Palette

Search for a command to run...

ProRL:基于修正策略梯度估计的高效主动推荐强化学习

Hongru Hou Tiehua Mei Denghui Geng Jinhui Huang Ao Xu Hengrui Chen Jiaqing Liang Deqing Yang

摘要

主动推荐系统(PRSs)旨在通过生成中间推荐路径,引导用户偏好向目标物品转移。强化学习(RL)为优化此类序列决策任务提供了理论框架,因为路径奖励能够自然地同时捕捉短期接受度与长期引导效果。然而,将策略梯度直接应用于PRS会导致梯度估计存在缺陷。我们识别出两个缺陷:(1)路径级奖励分解为具有正均值的步级奖励,产生长度依赖型偏差,导致梯度倾向于路径扩展而非有意义的探索;(2)使用完整路径级奖励对每一步进行加权忽略了分解结构,导致梯度方差较高。为纠正这两个缺陷,我们提出了一个有效的强化学习框架ProRL,其中包含两种用于主动推荐的新颖机制。首先,逐步奖励中心化(Stepwise Reward Centering)通过减去期望奖励来抵消长度依赖型偏差,确保路径扩展产生的期望梯度信号为零。其次,位置特定优势估计(Position-Specific Advantage Estimation)利用奖励分解结构来计算步依赖型基线,从而降低梯度方差。这些机制共同作用,生成了精确针对路径质量的策略梯度。我们在三个真实数据集上的实验表明,ProRL显著优于当前最先进的PRSs。我们的代码已开源,地址为 https://github.com/hongruhou89/ProRL

一句话总结

针对主动推荐系统,ProRL 作为一种强化学习框架,通过逐步奖励中心化(Stepwise Reward Centering)和位置特定优势估计(Position-Specific Advantage Estimation)修正了朴素策略梯度的长度依赖偏差与高方差问题,实现了精确的路径优化,在三个真实世界数据集上显著优于最先进系统。

核心贡献

  • 本研究指出了主动推荐系统中标准策略梯度估计存在的两个关键缺陷,具体包括鼓励不必要路径延长的长度依赖偏差,以及因使用路径级奖励均匀加权各步骤而导致的高梯度方差。
  • 提出的 ProRL 框架通过两种专用机制修正这些估计误差,利用逐步奖励中心化消除长度偏差,并利用位置特定优势估计在不依赖学习型 critic 的情况下计算步骤依赖基线。
  • 在三个真实世界数据集上的实验评估表明,ProRL 显著优于最先进的主动推荐系统,消融实验证实了每种机制的独立有效性。

引言

主动推荐系统旨在通过生成中间推荐项的序列路径,逐步将用户偏好引导至目标商品,这一能力有助于平台在不疏远固守熟悉习惯用户的前提下引入新内容。先前的方法依赖于仅在局部优化但全局失效的启发式规则、在生产环境中成本过高的大型语言模型,或无法发现超出历史数据范围路径的有监督模仿学习。当研究人员尝试将标准强化学习应用于这一序列决策问题时,策略梯度估计因偏向人工延长路径的长度依赖偏差以及均匀步骤加权导致的高梯度方差而失效。为解决这些问题,作者采用 ProRL,这是一种新型强化学习框架,通过逐步奖励中心化和位置特定优势估计修正策略梯度估计。这些机制消除了虚假的长度捷径,并计算低方差、适应步骤的基线,使模型能够有效优化即时用户接受度与长期引导成功率。

数据集

  • 数据集构成与来源: 作者使用三个公开推荐数据集:MovieLens-1M、Steam 和 Amazon-Book。
  • 子集详情与过滤规则: MovieLens-1M 包含 1,000,209 次交互,涉及 3,040 个商品,平均每位用户 165.59 次交互,采用用户 20-core 约束与商品 40-core 约束进行过滤。Steam 提供 7,793,069 次交互,涉及 15,474 个商品,平均每位用户 3.03 次交互,同样应用 20-user 和 40-item 的 core 过滤规则。Amazon-Book 包含 29,475,453 次交互,涉及 4,493,336 个商品,平均每位用户 2.86 次交互,经过更严格的预处理,采用用户 100-core 约束与商品 40-core 约束。
  • 元数据构建与序列处理: 为捕捉连续商品之间的关系,作者为每个数据集定义了桥接属性。MovieLens 使用电影类型(排除宽泛的剧情类 Drama),Steam 依赖分类、发行商和开发商,Amazon-Book 使用商品分类。这些属性有助于识别具有相关性的相邻商品。原始交互随后被转换为主动日志,将历史序列与目标商品进行配对。
  • 训练用途与数据划分: 作者采用以用户为中心的策略划分过滤后的数据,以防止信息泄露并在未见用户上评估泛化能力。交互数据按 80%、10% 和 10% 的比例划分为训练集、验证集和测试集。该结构支持模型在主动推荐场景下的训练与评估。

方法

作者将主动推荐建模为强化学习问题,目标是生成一系列中间推荐项,将用户偏好引导至指定的目标商品。该系统在用户模拟器中运行,该模拟器估计用户对任意给定商品的接受概率,从而实现在无需在线反馈的情况下计算奖励。推荐路径的质量通过三项指标量化:兴趣增量(IoI),用于衡量对目标商品预测兴趣的增加量;排名增量(IoR),用于衡量目标商品排名的提升;点击率(CTR),通过估计用户对中间商品的接受概率来衡量路径的可行性。这些指标被组合成自然奖励函数 Rnath=αIoI+βIoR+γCTRR_{\text{nath}} = \alpha \cdot \text{IoI} + \beta \cdot \text{IoR} + \gamma \cdot \text{CTR}Rnath=αIoI+βIoR+γCTR。策略由 πθ\pi_\thetaπθ 参数化,旨在最大化期望路径奖励,其被表述为包含 KL 散度项的策略梯度目标函数,以防止对初始策略 π0\pi_0π0 过拟合。

然而,在此设定下,使用完整路径奖励作为各步骤基线的标准策略梯度估计器存在两个关键缺陷。如下图所示,标准方法容易受到“长度捷径”的影响,即步骤级奖励的正均值导致梯度信号被路径长度主导,促使模型生成过长且冗余的路径。该问题因高梯度方差而进一步加剧,因为标准估计器将总路径奖励(包含无关的历史奖励)作为权重来分配各步骤的梯度。作者指出,将路径奖励分解为步骤级奖励之和 R=t=1LrtR = \sum_{t=1}^{L} r_tR=t=1Lrt 是这些问题的根本原因。

为修正这些问题,作者提出 ProRL,引入两项关键机制。首先,逐步奖励中心化通过从每个步骤级奖励 rtr_trt 中减去全局期望步骤奖励 rˉ\bar{r}rˉ 来消除长度捷径,得到中心化奖励 r~t=rtrˉ\tilde{r}_t = r_t - \bar{r}r~t=rtrˉ。这确保了延长路径的期望收益为零,将策略的焦点从路径长度转移至路径质量。其次,位置特定优势估计(PSE)降低了梯度方差。PSE 不使用总路径奖励作为基线,而是为每个步骤 ttt 计算剩余奖励 GtG_tGt,随后减去位置特定基线 Gˉi,t\bar{G}_{i,t}Gˉi,t,即来自同一输入的所有路径在该位置的平均剩余奖励。这生成了优势估计 A^t=GtGˉi,t\hat{A}_t = G_t - \bar{G}_{i,t}A^t=GtGˉi,t,作为一种低方差、无偏的步骤相对质量度量,因为它仅考虑未来奖励并采用更具适应性的基线。修正后的梯度估计器计算如下:g^rect=1nmi=1nj=1m[t=1L(i,j)θlogπθ(i,j,t)A^t(i,j)]\hat{g}_{\text{rect}} = \frac{1}{nm} \sum_{i=1}^{n} \sum_{j=1}^{m} \left[ \sum_{t=1}^{L^{(i,j)}} \nabla_\theta \log \pi_\theta^{(i,j,t)} \cdot \hat{A}_t^{(i,j)} \right]g^rect=nm1i=1nj=1m[t=1L(i,j)θlogπθ(i,j,t)A^t(i,j)]。这种双管齐下的方法有效对齐了策略梯度与优化推荐路径可行性及有效性的真实目标。

实验

该评估在多个数据集上将 ProRL 与多种推荐基线进行基准测试,验证了其同时优化路径可行性与长期引导有效性的能力。训练动态与消融研究表明,标准策略梯度受限于结构性长度捷径,迫使模型生成过长且低质量的序列,而 ProRL 的修正梯度估计消除了该偏差,产出稳定且长度适中的路径。跨评估器与鲁棒性分析进一步证实,该方法在未见过模型与不同干预强度下均能可靠泛化,且不会过拟合于特定奖励信号。最终,实验表明修正策略梯度估计能够释放预训练模型中的潜在引导能力,从而实现鲁棒且语义连贯的主动推荐。

作者在不同数据集的主动推荐任务上将 ProRL 与多种基线方法进行评估,证明其方法在引导有效性与路径可行性方面均取得优越性能。ProRL 在 CTR、连贯性、IoI 和 IoR 等指标上持续优于现有方法,在路径质量与稳定性方面取得显著提升,即使在未见推荐模型下进行评估亦然。结果表明,ProRL 学习到了可泛化且鲁棒的引导策略,不受限于特定奖励设计或评估模型。ProRL 在所有数据集与指标上均取得最佳性能,优于顺序推荐与主动推荐方法。ProRL 在保持高路径可行性与连贯性的同时显著提升了引导有效性,表明其在用户参与度与推荐质量之间实现了平衡优化。ProRL 在不同目标选择方案与干预强度下展现出鲁棒且稳定的性能,证明了其适应性与泛化能力。

作者对比了预训练模型与强化学习(RL)模型在多个数据集上的性能,重点关注与用户参与度及引导有效性相关的指标。结果显示,RL 模型在引导指标上持续优于预训练模型,而预训练模型在路径可行性指标上表现更高。RL 模型在可行性与有效性之间保持平衡,实现了更优的整体性能。RL 模型在所有数据集的引导有效性指标上均超越预训练模型。与 RL 模型相比,预训练模型实现了更高的路径可行性指标。RL 模型在路径可行性与引导有效性之间维持了平衡的性能表现。

作者为 ProRL 框架展示了全面的实验设置,详细说明了包括预训练与强化学习在内的不同训练阶段的超参数。表格显示,常见参数在不同数据集间配置一致,同时突出了反映数据集特定需求的学习率与训练轮次变化。该设置支持主动推荐方法的评估,重点优化引导有效性与用户参与度。实验设置针对通用模型架构与优化设置在不同数据集间采用一致的超参数,并通过调整学习率与训练轮数以适应数据集特性。相较于预训练阶段,强化学习阶段采用更低的学习率与更少的训练轮次,表明这是一个更稳定且精细的优化过程。超参数选择与模型的双阶段训练方法相一致,支持初始的有监督学习与后续的强化学习,以提升引导性能。

实验评估了平滑引导数据(SmGD)对多个数据集上主动推荐性能的影响。结果表明,使用 SmGD 训练的模型在点击率(CTR)、连贯性以及引导有效性指标(IoI 和 IoR)上持续优于未使用该数据的模型,表明 SmGD 同时提升了用户参与度与引导质量。该性能差距在稠密数据集上尤为明显,表明 SmGD 在提升推荐质量的同时能有效保持用户参与度。与未使用 SmGD 的模型相比,使用平滑引导数据(SmGD)训练的模型实现了显著更高的点击率与连贯性。在所有数据集上,使用 SmGD 均带来了更优的引导有效性(由 IoI 和 IoR 衡量)。性能提升在稠密数据集上最为显著,其中 SmGD 有助于在提升推荐质量的同时维持高用户参与度。

作者分析了主动推荐系统中强化学习策略的训练动态,重点关注路径长度与多样性之间的交互。结果表明,使用不同奖励信号训练的策略表现出一致的模式:路径长度迅速增加至允许的最大值,而多样性骤降至接近零,表明模型生成长篇重复路径的失效模式。该行为归因于奖励与路径长度之间的结构性耦合,正步骤级奖励产生了延长路径的激励,导致次优收敛。分析进一步揭示,该长度捷径现象在不同数据集与奖励设计中具有鲁棒性,且期望步骤奖励中的正向偏差在整个训练过程中保持一致。无论使用何种奖励信号,策略均收敛至最大路径长度,同时多样性崩溃。正向期望步骤奖励产生延长路径的激励,从而导致长度捷径。长度捷径是奖励函数的结构性属性,而非调参伪影,在所有数据集与奖励类型中均被观察到。

该评估采用双阶段训练框架,将有监督预训练与强化学习相结合,并调整超参数以适应数据集特定特性。对比实验表明,ProRL 持续超越顺序推荐与主动推荐基线以及预训练模型,在多样环境与未见推荐架构下均能交付更优的引导有效性,同时保持高路径可行性与连贯性。额外分析验证了平滑引导数据在提升用户参与度与推荐质量方面的显著贡献,尤其在稠密数据集中;而对训练动态的进一步调查揭示了一种结构性长度捷径,即正向步骤奖励在损害多样性的情况下意外驱动了路径延长。综合而言,这些发现确立了 ProRL 作为一个高度适应性与鲁棒的框架,成功平衡了参与度与质量,同时阐明了主动推荐系统中的关键优化挑战。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供