
摘要
我们利用神经正切核(Neural Tangent Kernel)及其与无限宽神经网络训练等价性的特性,提出了一种具有无限宽瓶颈层的自编码器——∞-AE。该模型具备高度表达能力且结构极为简洁,仅含一个超参数,并拥有闭式解。基于∞-AE的简洁性,我们进一步开发了Distill-CF方法,用于生成极小但高保真的数据摘要,能够提炼出超大规模、高度稀疏的用户-物品交互矩阵中最具价值的知识,从而实现对后续数据使用任务(如模型训练、推理、架构搜索等)的高效与精准支持。这一方法采用数据驱动的推荐范式,旨在提升日志中用户反馈数据的质量,以服务于后续建模,且不依赖于具体的学习算法。我们特别引入可微分Gumbel采样技术,以有效应对数据固有的异构性、稀疏性与半结构化特征,同时具备处理包含数亿级用户-物品交互数据集的可扩展性。我们提出的两种方法均显著优于各自领域的最先进水平;当二者结合使用时,仅需原始数据集规模的0.1%,即可实现接近全量数据下∞-AE 96%至105%的性能表现。这一结果促使我们提出一个反直觉的问题:在推荐系统中,真的需要更多数据才能获得更好的效果吗?