11日前
クリックスルー率予測のための特徴セット最適化
Fuyuan Lyu, Xing Tang, Dugang Liu, Liang Chen, Xiuqiang He, Xue Liu

要約
クリックスルー予測(CTR)モデルは、入力された特徴量を潜在ベクトルに変換し、可能な特徴量の相互作用を列挙することで、モデルの性能を向上させる。したがって、最適な特徴量セットを選択する際には、特徴量そのものとその相互作用の両方の影響を考慮する必要がある。しかし、従来の多くは、特徴量フィールドの選択に注目するか、固定された特徴量セットに基づいて特徴量相互作用のみを選択する。前者は探索空間を特徴量フィールドに限定しており、微細な特徴量の選択には不十分である。また、無意味な特徴量相互作用をフィルタリングしないため、計算コストが増加し、モデル性能が低下する。後者はすべての利用可能な特徴量から有用な相互作用を特定するため、特徴量セットに多くの冗長な特徴量が含まれてしまう。本論文では、これらの課題を解決するため、新規な手法OptFSを提案する。特徴量とその相互作用の選択を統一するために、各特徴量相互作用の選択を、2つの関連する特徴量の選択に分解する。この分解により、さまざまな特徴量相互作用操作に対応したエンドツーエンド学習が可能となる。特徴量レベルの探索空間を採用し、各特徴量が特徴量セットに含まれるべきかどうかを決定する学習可能なゲートを導入する。大規模な探索空間のため、学習継続型(learning-by-continuation)の訓練スキームを設計し、これらのゲートを効率的に学習する。その結果、OptFSは最終的な予測結果を向上させる特徴量のみを含む特徴量セットを生成する。実験では、3つの公開データセットを用いてOptFSの有効性を評価した。その結果、OptFSはモデル性能を向上させる特徴量セットを最適化でき、同時にストレージおよび計算コストの両方を削減できることを示した。