11 天前

用于点击率预测的特征集优化

Fuyuan Lyu, Xing Tang, Dugang Liu, Liang Chen, Xiuqiang He, Xue Liu
用于点击率预测的特征集优化
摘要

点击率预测(Click-Through Rate, CTR)模型通过将特征映射为潜在向量,并枚举可能的特征交互以提升模型性能。因此,在选择最优特征集时,应同时考虑特征本身及其交互的影响。然而,以往大多数方法仅关注特征字段的选择,或在固定特征集的基础上仅筛选特征交互,难以兼顾特征与交互的联合优化。前者将搜索空间限制在特征字段层面,粒度过于粗糙,无法有效识别细微但重要的特征;同时,这类方法未能剔除无用的特征交互,导致计算开销增加且模型性能下降。后者则在全部可用特征中识别有用的交互,往往引入大量冗余特征,使特征集膨胀。针对上述问题,本文提出一种新方法——OptFS(Optimal Feature Selection)。为统一实现特征及其交互的联合选择,OptFS将每个特征交互的选择过程分解为两个相关特征的选择。这种分解方式使得模型能够针对不同的特征交互操作实现端到端可训练。通过引入特征级别的搜索空间,并为每个特征设置可学习的门控机制,以决定该特征是否应被纳入特征集。由于搜索空间规模庞大,我们设计了一种“持续学习”(learning-by-continuation)的训练策略来高效学习这些门控参数。因此,OptFS能够生成仅包含对最终预测结果有实际提升作用的特征的精简特征集。实验结果表明,我们在三个公开数据集上对OptFS进行了评估,验证了其能够有效优化特征集,显著提升模型性能,同时大幅降低存储与计算成本。