7 天前

无限推荐网络：一种数据驱动的方法

Noveen Sachdeva, Mehak Preet Dhaliwal, Carole-Jean Wu, Julian McAuley

摘要

我们利用神经正切核（Neural Tangent Kernel）及其与无限宽神经网络训练等价性的特性，提出了一种具有无限宽瓶颈层的自编码器——∞-AE。该模型具备高度表达能力且结构极为简洁，仅含一个超参数，并拥有闭式解。基于∞-AE的简洁性，我们进一步开发了Distill-CF方法，用于生成极小但高保真的数据摘要，能够提炼出超大规模、高度稀疏的用户-物品交互矩阵中最具价值的知识，从而实现对后续数据使用任务（如模型训练、推理、架构搜索等）的高效与精准支持。这一方法采用数据驱动的推荐范式，旨在提升日志中用户反馈数据的质量，以服务于后续建模，且不依赖于具体的学习算法。我们特别引入可微分Gumbel采样技术，以有效应对数据固有的异构性、稀疏性与半结构化特征，同时具备处理包含数亿级用户-物品交互数据集的可扩展性。我们提出的两种方法均显著优于各自领域的最先进水平；当二者结合使用时，仅需原始数据集规模的0.1%，即可实现接近全量数据下∞-AE 96%至105%的性能表现。这一结果促使我们提出一个反直觉的问题：在推荐系统中，真的需要更多数据才能获得更好的效果吗？