HyperAIHyperAI

Command Palette

Search for a command to run...

无限推荐网络:一种数据驱动的方法

Noveen Sachdeva Mehak Preet Dhaliwal Carole-Jean Wu Julian McAuley

摘要

我们利用神经正切核(Neural Tangent Kernel)及其与无限宽神经网络训练等价性的特性,提出了一种具有无限宽瓶颈层的自编码器——∞-AE。该模型具备高度表达能力且结构极为简洁,仅含一个超参数,并拥有闭式解。基于∞-AE的简洁性,我们进一步开发了Distill-CF方法,用于生成极小但高保真的数据摘要,能够提炼出超大规模、高度稀疏的用户-物品交互矩阵中最具价值的知识,从而实现对后续数据使用任务(如模型训练、推理、架构搜索等)的高效与精准支持。这一方法采用数据驱动的推荐范式,旨在提升日志中用户反馈数据的质量,以服务于后续建模,且不依赖于具体的学习算法。我们特别引入可微分Gumbel采样技术,以有效应对数据固有的异构性、稀疏性与半结构化特征,同时具备处理包含数亿级用户-物品交互数据集的可扩展性。我们提出的两种方法均显著优于各自领域的最先进水平;当二者结合使用时,仅需原始数据集规模的0.1%,即可实现接近全量数据下∞-AE 96%至105%的性能表现。这一结果促使我们提出一个反直觉的问题:在推荐系统中,真的需要更多数据才能获得更好的效果吗?


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供