突破十亿参数:Transformer模型重塑推荐系统新高度
Yandex推荐系统研发团队负责人Kirill Khrylchenko分享了其团队在推荐系统中大规模应用Transformer模型的最新进展。他们成功构建并部署了参数量达十亿级的自回归生成式用户序列建模模型ARGUS,显著提升了音乐推荐等服务的推荐质量。 传统推荐系统通常采用两塔神经网络架构,将用户和物品分别编码为向量,通过点积计算相似度。这种结构高效,适合候选生成阶段,但受限于模型容量和上下文长度。过去,推荐模型规模较小,编码器参数通常仅数百万,用户历史长度也仅限于数百条。然而,随着深度学习“缩放假说”的验证,模型越大、数据越多,性能越优,Yandex开始探索更大规模的Transformer架构。 为突破瓶颈,团队提出ARGUS框架,其核心是将推荐问题转化为强化学习任务:既学习模仿历史推荐策略(即“日志策略”),又建模用户真实偏好(即“世界知识”)。ARGUS不再仅预测下一个正向行为,而是以三元组(上下文、物品、反馈)为输入,同时完成两个任务: 1. 下一物品预测:在给定历史和上下文的情况下,预测用户可能与之互动的物品,包括正负反馈。 2. 反馈预测:预测用户对物品的具体反应,如是否喜欢、收听时长、是否加入歌单等。 为解决大规模物品库下全softmax计算不可行的问题,团队采用“采样softmax + logQ校正”损失函数。同时,为应对用户历史过长(可达数万条)带来的计算压力,他们设计了简化版ARGUS,将三元组压缩为单个向量,实现三倍加速,同时保持性能。 在训练方式上,ARGUS采用自回归预训练,一次性处理用户整段历史,相比传统逐次处理(如Meta的HSTU)效率提升数十至数百倍。在微调阶段,团队也实现“一次运行,全量处理”:将用户全年历史输入模型,一次性生成所有推荐时刻的用户状态,极大提升训练速度。 实验结果表明,ARGUS在音乐推荐服务中表现卓越。在3000亿级数据集上训练,模型参数从320万增至10.07亿,质量持续提升,符合线性缩放规律。相比HSTU等新架构,ARGUS在同等参数下表现更优。在A/B测试中,ARGUS使总收听时长提升0.75%,对“陌生推荐”场景(Unfamiliar)提升达12%。作为最终排序器的特征输入,其效果相当于此前所有模型迭代的总和。 此外,ARGUS已成功应用于智能音箱等设备,不仅作为排序特征,还用于候选生成,进一步提升推荐多样性与精准度。 该研究证明,通过结合自回归建模、多任务学习与高效训练机制,推荐系统Transformer可实现从百万级到十亿级参数的突破,为下一代智能推荐系统奠定了坚实基础。
