13日前

OptEmbed:クリック率予測のための最適な埋め込みテーブル学習

Fuyuan Lyu, Xing Tang, Hong Zhu, Huifeng Guo, Yingxue Zhang, Ruiming Tang, Xue Liu
OptEmbed:クリック率予測のための最適な埋め込みテーブル学習
要約

クリック率(CTR)予測において、埋め込みテーブル(embedding table)の学習はモデルの性能とメモリ使用量の観点から基盤的な役割を果たす。埋め込みテーブルは、特徴値の数と埋め込み次元をそれぞれ軸とする二次元テンソルである。近年の研究では、特徴フィールドごとに異なる埋め込み次元を割り当てたり、埋め込みの数を削減したり、あるいは埋め込みテーブルのパラメータをマスクする手法が提案されている。しかし、これらの既存手法は最適な埋め込みテーブルの獲得を実現できていない。一方で、異なる埋め込み次元を採用しても、データセットに含まれる特徴数が膨大なため、依然として大きなメモリ消費を伴う。他方で、埋め込み数を削減することは、CTR予測において許容できない性能の低下を引き起こす傾向がある。さらに、埋め込みパラメータのプルーニング(pruning)は、スパースな埋め込みテーブルを生じさせ、実装・デプロイの難易度を高める。こうした課題を解決するため、本研究では、さまざまな基本CTRモデルに対応可能な実用的かつ汎用的な最適埋め込みテーブルの学習フレームワーク「OptEmbed」を提案する。具体的には、各特徴の重要度に基づき、学習可能なプルーニング閾値を用いて冗長な埋め込みを削除する手法を提案する。また、異なる埋め込み次元の割り当てを一つの候補アーキテクチャとして統合するアプローチを採用する。最適な埋め込み次元の探索を効率的に行うため、すべての候補アーキテクチャを均等に学習できる均一な埋め込み次元サンプリングスキームを設計し、スーパーネット(supernet)内でアーキテクチャ関連パラメータと学習可能な閾値を同時に学習する。その後、このスーパーネットを基に進化探索法(evolution search method)を構築し、各フィールドに対して最適な埋め込み次元を同定する。公開データセットを用いた実験の結果、OptEmbedはコンパクトな埋め込みテーブルを学習可能であり、さらにモデル性能の向上を実現できることを示した。

OptEmbed:クリック率予測のための最適な埋め込みテーブル学習 | 最新論文 | HyperAI超神経