
摘要
最新在自然语言处理(Natural Language Processing, NLP)领域的研究发现,大型语言模型(Large Language Models, LLMs)的成功在很大程度上得益于其强大的记忆能力。这一发现启发我们,将一个独立的记忆机制显式引入点击率(Click-Through Rate, CTR)排序模型中,以学习并记忆交叉特征的表示。本文提出了一种名为多哈希码本网络(Multi-Hash Codebook NETwork, HCNet)的记忆机制,用于高效地学习和记忆CTR任务中交叉特征的表示。HCNet以多哈希码本作为主要记忆存储结构,整个记忆过程包含三个阶段:多哈希寻址、记忆恢复和特征压缩。此外,我们还提出了一种新的CTR模型——MemoNet,该模型将HCNet与DNN主干网络相结合。在三个公开数据集上的大量实验以及线上测试结果表明,MemoNet在性能上显著优于当前最先进的方法。更重要的是,MemoNet展现出与NLP中大型语言模型相似的扩展规律,即通过持续扩大HCNet中码本的规模,能够持续获得性能提升。本研究充分证明了学习并记忆交叉特征表示的重要性与可行性,为推荐系统领域开辟了一条极具潜力的新研究方向。