HyperAI超神经
Back to Headlines

快手推出OneRec:用大模型简化视频推荐流程

7 days ago

快手短视频最近推出了一款基于大语言模型(LLM)的推荐算法——OneRec。这一创新的核心在于,OneRec是一个端到端的视频推荐模型,与传统的多阶段推荐流程不同,它只需一个模型即可覆盖整个推荐过程。这一设计主要受到当前LLM成功案例的启发,快手认为只要模型规模足够大,推荐模型同样可以取得优异效果。另外,大规模用户基数下的推荐场景中,传统推荐流程长且目标不一,导致历史负担重、模型混乱。同时,多个在线推荐模型的GPU资源利用率低,造成资源浪费。为了解决这些问题,快手开发并成功部署了OneRec。 OneRec的最大亮点是其生成型架构,类似于LLM。它通过生成而不是推荐项目来简化推荐流程,从而实现真正意义上的端到端。具体来说,OneRec的工作流程包括三个核心组件——分词器、编码器和解码器,以及一个用于后续微调的奖励系统。 分词器:在处理大规模推荐场景时,OneRec首先将视频的字幕、标签、自动语音识别(ASR)、光学字符识别(OCR)、封面图片和五张均匀采样的帧输入到一个名为miniCPM-V-8B的大模型中,获得高维特征向量。随后,利用轻量级的QFormer压缩这些高维表示,既保留信息又方便后续处理。最后,分词器输出每个视频的三层次语义ID,分别代表粗、中、细三个粒度的分类,以便单个服务器能够高效地处理数亿个视频。 编码器:OneRec的编码器结合了四类用户相关特征,包括静态用户特征(用户ID、年龄、性别等)、短期行为路径(最近20条互动记录)、正反馈行为路径(最高256条高参与度互动记录)和生命周期路径(长达10万条的历史行为记录)。通过映射和压缩这些特征,编码器最终生成综合的兴趣表示,为个性化的推荐打下基础。 解码器:解码器类似于Transformer解码器,但最后一层采用了Mixture of Experts(MoE)结构以加快推理速度。推理过程中,从开始符号(BOS)逐步生成用户希望点击的视频序列,然后将这些语义ID映射回实际的视频ID。 强化学习:为了使推荐结果更符合实际业务需求,OneRec引入了强化学习机制,特别是ECPO(Early Clipped GRPO)方法。这种方法通过截断负优势值样本来避免梯度爆炸,并通过引入格式奖励机制来鼓励生成有效的语义ID,提升推荐的有效性。此外,OneRec还支持在奖励机制中加入“行业奖励”,用以调整特定类型内容的曝光率。 总体来看,OneRec相比于传统推荐模型并没有完全摆脱细排模型的影子,但在某些指标上确实表现出色。特别是在快手的生活服务场景中,OneRec带来了显著的商业增长:GMV增加21.01%,订单数量增长17.89%,购买用户数增长18.58%,新客户获取效率提升了23.02%。 业内专家对OneRec给予了高度评价,指出其突破性的生成型架构不仅大大简化了推荐流程,还在资源利用率和推荐效果上取得了明显的进步。快手作为中国领先的短视频平台,拥有丰富的数据资源和强大的技术团队,这使得OneRec的成功实施成为可能。

Related Links