7日前

行動は言葉より雄弁である:生成的推薦のためのトリリオンパラメータ逐次変換器

Jiaqi Zhai, Lucy Liao, Xing Liu, Yueming Wang, Rui Li, Xuan Cao, Leon Gao, Zhaojie Gong, Fangda Gu, Michael He, Yinghai Lu, Yu Shi
行動は言葉より雄弁である:生成的推薦のためのトリリオンパラメータ逐次変換器
要約

大規模なレコメンデーションシステムは、高基数(high cardinality)かつ多様な特徴量を扱い、日々数十億件のユーザー行動を処理する必要があることが特徴である。業界で広く採用されている深層学習レコメンデーションモデル(DLRM)は、数千もの特徴量を用いて膨大なデータ量で学習されているにもかかわらず、計算リソースのスケーリングには失敗しがちである。言語および視覚領域におけるTransformerの成功をヒントに、我々はレコメンデーションシステムの根本的な設計選択を見直した。レコメンデーション問題を生成モデルフレームワーク内での順次変換タスク(sequential transduction tasks)として再定式化し、「生成型レコメンデーションモデル(Generative Recommenders)」を提案した。これに伴い、高基数かつ非定常なストリーミングデータを扱うことを想定した新しいアーキテクチャ、HSTU(Hierarchical Sparse Transformer Unit)を設計した。HSTUは合成データおよび公開データセットにおいて、NDCG指標でベースラインを最大65.8%上回り、長さ8192のシーケンスにおいてFlashAttention2を搭載したTransformerと比較して、5.3倍から15.2倍の高速性を実現した。1.5兆パラメータを有するHSTUを活用した生成型レコメンデーションモデルは、オンラインA/Bテストで指標を12.4%向上させ、数十億人のユーザーを擁する大規模インターネットプラットフォームの複数のサービスに本番導入されている。さらに重要なことに、生成型レコメンデーションモデルの性能は、学習に用いる計算リソースに対して、3桁のスケールにわたり実証的にべき乗則(power-law)的に向上することが確認された。これは、GPT-3やLLaMa-2に相当する規模までモデル性能が向上可能なことを意味し、将来のモデル開発に必要な炭素排出量を削減する一方で、レコメンデーション分野における初の基礎モデル(foundational models)の実現に向けた道筋を確立した。

行動は言葉より雄弁である:生成的推薦のためのトリリオンパラメータ逐次変換器 | 最新論文 | HyperAI超神経