13 天前

OptEmbed:用于点击率预测的最优嵌入表学习

Fuyuan Lyu, Xing Tang, Hong Zhu, Huifeng Guo, Yingxue Zhang, Ruiming Tang, Xue Liu
OptEmbed:用于点击率预测的最优嵌入表学习
摘要

嵌入表(embedding table)在点击率(Click-Through Rate, CTR)预测模型中扮演着至关重要的角色,其性能直接影响模型的预测效果,同时对内存使用也具有显著影响。嵌入表本质上是一个二维张量,其两个维度分别对应特征取值的数量与嵌入维度(embedding dimension)。为学习高效且有效的嵌入表,近年来的研究主要采用两种策略:一是为不同特征字段分配不同的嵌入维度,并相应减少各字段的嵌入向量数量;二是对嵌入表参数进行掩码(masking)处理。然而,现有方法均难以获得最优的嵌入表结构。一方面,尽管采用差异化的嵌入维度,但由于数据集中特征数量庞大,仍需占用大量内存;另一方面,减少嵌入向量数量通常会导致模型性能下降,这在对精度要求极高的CTR预测任务中难以接受;此外,直接剪枝嵌入参数会生成稀疏的嵌入表,给实际部署带来困难。针对上述挑战,本文提出一种面向最优嵌入表学习的通用框架——OptEmbed。该框架为多种基础CTR模型提供了一种实用且普适的最优嵌入表搜索方法。具体而言,我们提出基于特征重要性的可学习剪枝阈值机制,动态剪除冗余的嵌入向量,从而实现精细化的嵌入表压缩。同时,我们将不同嵌入维度的配置视为单一候选架构(candidate architecture),并设计了一种统一的嵌入维度采样策略,使得所有候选架构能够在同一超网络(supernet)中实现均衡训练。在此过程中,架构相关参数与可学习剪枝阈值可同步优化。进一步地,我们基于该超网络提出一种基于进化搜索(evolutionary search)的方法,用于为每个特征字段自动寻得最优的嵌入维度配置。在多个公开数据集上的实验结果表明,OptEmbed能够学习到结构紧凑的嵌入表,在显著降低内存占用的同时,进一步提升了模型的预测性能,验证了其有效性与普适性。