HyperAI超神経
Back to Headlines

「OneRec:大規模言語モデルに基づく次世代動画レコメンデーションシステム」

7日前

OneRec推荐モデル:大規模言語モデルに基づく単一パイプライン推奨システム OneRecは、快手短視頻が開発・導入した新しい Recommendation モデルであり、従来の推薦アルゴリズムアーキテクチャとは異なり、端から端までのビデオ推奨モデルとなっています。従来の推奨フローでは、_recall、粗選別、選別、再選別などの複雑な段階を経る必要がありますが、OneRecでは単一モデルで全プロセスをカバーします。 OneRecの成功は、現行の大規模言語モデル(LLMs)が大量のデータと大きなモデルサイズを持つことで優れた推論結果を得ていることから着想を得ています。 recommendation 分野でも同様に、データが豊富に存在するため、モデルのサイズが十分に拡大されれば良好な推奨結果が得られると考えられます。加えて、ユーザー基数が大きい推奨シナリオでは推奨パイプラインが非常に長くなり、複数の推奐チームがあるために混乱が生じやすく、GPUリソース利用率も低いという課題がありました。これらの問題を解決するために快手はOneRecを開発しました。 OneRecの最大の特徴は、生成型アーキテクチャを採用していることです。従来はアイテム推奨でしたが、OneRecはアイテムを生成します。生成による直接的な推奨により、recallやランキングのような中間ステップが不要となり、完全なエンドツーエンドのプロセスが可能になります。 システム構造 OneRecのワークフローは、LLMトレーニングに類似しており、トークナイザー、エンコーダ、デコーダの3つの主要なコンポーネントと報酬システムで構成されます。 トークナイザー トークナイザーは、数百万から数十億件のアイテムを意味的IDに分割します。この過程はクラスタリングと呼ばれ、視覚的な要素(カバーやフレーム)とテキスト要素(サブキャプションやタグ)を高次元の特徴ベクトルに変換します。その後、軽量なQFormerを使用して特徴ベクトルをさらに圧縮します。QFormerは各クラスタが等しいサンプル数を持つようにバランスを取ることで、効率的な処理を実現します。 エンコーダ OneRecのエンコーダは、4種類のユーザー関連特徴を取り扱います。 - 静的ユーザ特徴:ユーザーID、年齢、性別など。 - 短期行動パス:最近の(L_s=20)ユーザーとビデオの相互作用レコード。 - ポジティブフィードバックパス:高いエンゲージメントを示す(例:イイね、フォローなど)ユーザー行動シーケンス(最大L_p=256)。 - ライフサイクラパス:最大10万件の行動記録を含む非常に長期的な履歴行動シークエンス。 これらの特徴が結合され、位置エンコーディングがつけられます。その後、標準的なTransformerエンコーダ層を通じて多次元の処理が行われ、ユーザーの興味表現が取得されます。 デコーダ デコーダは、ユーザーが期待するクリックシークエンスを順次生成します。生成された意味的IDは特定のビデオにマッピングされ、推奨リストとしてユーザに表示されます。推奨の効率を向上させるために、デコーダの最終層にはモixture of Experts (MoE) 構造が使用されます。 強化学習 強化学習では、クリックや視聴時間などの複数のフィードバックを統合し、「P-Score」と呼ばれる数値化された指標を作成します。ECPO (Early Clipped GRPO) アルゴリズムが使用され、このスコアに基づいてモデルの最適化が行われます。特に否定的なフィードバックにおいて、ECPOはポリシーグレディエントの早期クリッピングによってモデルの訓練安定性を向上させます。 実績と影響 快手の実世界のビジネスシナリオ(例:地域生活サービス)でのOneRecの性能は著しく向上しています。具体的には、GMVが21.01%増加、注文数が17.89%増加、購入ユーザー数が18.58%増加し、新規ユーザーの獲得効率も23.02%向上しました。これらの結果は、OneRecが従来の推奨モデルを大幅に上回っていることを示しています。 快手は、OneRecによって推奨システムの複雑さが大幅に減少し、リソース利用効率が向上した点を強調しています。また、業界関連者は、OneRecが大規模なユーザーベースに対応し、複数のチームがそれぞれ異なる目的と最適化目標を持っていた従来の推奨システムの問題を解決したと評価しています。

Related Links