HyperAI
Back to Headlines

OneRec : Un Modèle de Recommandation Vidéo End-to-End Inspiré des Grands Modèles Linguistiques

il y a 7 jours

OneRec : Un Modèle de Recommandation Basé sur les Modèles Linguistiques à Grande Échelle OneRec, créé par Kuaishou Short Video, représente une régression majeure des modèles de recommandation traditionnels vers une approche entièrement intégrée. Plutôt que de suivre une structure en plusieurs étapes, comme l’appel, le classement grossier, le classement détaillé et le re-classement, OneRec utilise un seul modèle qui couvre l'ensemble du processus de recommandation. Inspiré par le succès des modèles linguistiques à grande échelle (LLMs), OneRec vise à améliorer l'efficacité et la cohérence des recommandations en exploitant des ressources données massives et une architecture simplifiée. Architecture Générative Le point le plus distinctif de OneRec est son architecture générative. Contrairement aux modèles traditionnels qui sélectionnent et classent des items, OneRec génère directement des séquences d'items recommandés. Cela élimine les étapes de rappel et de classement, rendant le processus entièrement end-to-end. Cette approche réduit la complexité technique et améliore l'utilisation des ressources du GPU, souvent sous-utilisées dans les pipelines de recommandation traditionnels. Flux de Travail Général Le flux de travail de OneRec est structuré autour de trois composants principaux : le tokenizer, l'encoder et le decoder, avec un système de récompenses pour l'ajustement fin. Le tokenizer segmente les items, transformant leurs caractéristiques en identifiants sémantiques. L'encoder agrège les comportements des utilisateurs, tandis que le decoder génère des séquences d'identifiants sémantiques correspondant aux préférences de l'utilisateur. Tokenizer Dans un scénario de recommandation à grande échelle, le nombre d'items peut atteindre des centaines de millions. Le tokenizer de OneRec utilise un modèle de grande taille, miniCPM-V-8B, pour extraire des vecteurs de caractéristiques haute-dimensionnels à partir de captions, tags, reconnaissance automatique de la parole (ASR), reconnaissance optique de caractères (OCR), images de couverture et cinq cadres uniformément échantillonnés des vidéos. Ces vecteurs sont ensuite compressés par un modèle léger appelé QFormer, qui réduit leur dimensionnalité tout en rétinant l'information essentielle. Pour améliorer la distinctivité sémantique, OneRec effectue deux opérations : 1. Construction de Paires d'Items : deux méthodes pour construire des paires d'items, améliorant l'apprentissage des représentations vidéos. 2. Prédiction de Caption avec LLaMa3 : l'utilisation de LLaMa3 pour prédire le prochain token des captions, alignant ainsi les représentations vidéos avec la distribution réelle des comportements utilisateur. Les embeddings compressés sont ensuite convertis en tokens générables via un mécanisme de quantification à plusieurs niveaux, spécifiquement l'algorithme Residual K-Means Quantization (RQ-Kmeans). Chaque vidéo est représentée par un code sémantique de trois niveaux, ce qui permet une catégorisation large et une distinction fine des styles et préférences. Encoder L'encoder de OneRec incorpore quatre types de caractéristiques liées à l'utilisateur : 1. Caractéristiques Statiques Utilisateur : telles que l'ID, l'âge et le sexe de l'utilisateur. 2. Chemin Comportemental Courts Termes : traite les 20 interactions les plus récentes, incluant l'ID de la vidéo, l'ID de l'auteur, les tags, la timestamp, la durée de lecture et les labels d'interaction. 3. Chemin du Comportement Positif : gère les séquences d'interactions à forte engagement (comme les likes et les follows), avec une longueur maximale de 256. 4. Chemin du Cycle de Vie : traite des séquences historiques extrêmement longues (jusqu'à 100 000 entrées). Les embeddings sont d'abord cartographiés et concaténés, puis un QFormer effectue une compression supplémentaire. Ces caractéristiques sont ensuite concaténées, codées positionnellement et alimentées dans des couches d'encodeur Transformer standard. Ce processus permet à OneRec d'obtenir une représentation complète des intérêts de l'utilisateur, combinant des points chauds à court terme et des préférences à long terme. Decoder Le decoder de OneRec est similaire au decoder Transformer, mais utilise une structure Mixture of Experts (MoE) à la dernière couche pour faciliter l'inférence rapide. Au cours de la formation, chaque token est séparé par BOS. Lors de l'inférence, le decoder génère progressivement la séquence de clics attendue à partir du symbole de début (BOS). Une séquence d'IDs sémantiques est ainsi créée, reflétant la séquence de clics de l'utilisateur. Après avoir généré la séquence d'IDs sémantiques, elle est cartographiée vers des IDs de vidéos actuels. Si une correspondance est trouvée, l'ID sémantique est considéré comme valide ; sinon, il est invalide. Apprentissage Par Renforcement Malgré des performances initiales modestes, OneRec se distingue surtout grâce à son apprentissage par renforcement (RL). Il utilise un petit réseau neuronal pour intégrer divers retours, tels que les clics, les likes et la durée de visionnage, en un "P-Score". Ensuite, l'algorithme ECPO (Early Clipped GRPO) optimise le modèle en fonction de ces scores, alignant ainsi ses recommandations avec les objectifs commerciaux et écologiques de la plateforme. ECPO améliore l'approche GRPO en limitant le gradient de politique des échantillons à avantage négatif, évitant ainsi des explosions de gradient. Néanmoins, cet ajustement peut provoquer un effet de "compression" des probabilités de génération des IDs sémantiques valides, les ramenant au niveau des IDs invalides. Pour contrer cela, OneRec introduit un mécanisme de récompense de format encouragant la génération d'IDs valides. OneRec peut également incorporer des "récompenses industrielles" dans le mécanisme de récompense, permettant de réduire l'exposition d'un certain type de contenu de 9,59% sans affecter les métriques de recommandation. Processus d'Entraînement La phasepréentraînement de OneRec utilise des représentations de comportements utilisateurs, générant des séquences d'items cibles, où chaque item est représenté par 3 tokens sémantiques. OneRec produit quotidiennement 18 milliards d'échantillons, soit 54 milliards de tokens, nécessitant environ 100 milliards d'échantillons pour converger. La formation postérieure inclut : 1. Sampling de Rejet : élimination des 50% d'échantillons avec la plus courte durée de lecture. 2. RL : sélection aléatoire de 1% des utilisateurs pour générer des échantillons d'apprentissage par renforcement. Les échantillons sont notés par le Réseau de Récompense (RM) avant d'être introduits dans le modèle d'apprentissage par renforcement. Performances Bien que OneRec ne présente pas d'améliorations significatives en isolation, l'introduction du Réseau de Récompense (RM) accroît ses performances. Cependant, le RM repose sur des modèles de classement détaillé similaires, montrant que OneRec n'est pas complètement indépendant des approches traditionnelles de classement détaillé. Malgré tout, OneRec offre des performances supérieures à ces modèles, notamment dans les services de mode de vie locaux de Kuaishou. Il y a atteint : - Une augmentation de 21,01% du GMV (Volume Global des Ventes). - Une croissance de 17,89% du nombre de commandes. - Une hausse de 18,58% du nombre d'utilisateurs ayant acheté. - Une efficacité accrue de 23,02% pour l'acquisition de nouveaux clients. Évaluations et Profils Industriels L'approche de OneRec a été largement saluée par les professionnels de l'industrie pour sa capacité à simplifier les pipelines de recommandation complexes. Elle offre une meilleure utilisation des ressources GPU et une plus grande alignement avec les objectifs des Plateformes, même si elle nécessite une attention particulière à l'effet de compression des IDs sémantiques. Kuaishou, une entreprise majeure dans le domaine de la vidéo courte sur mobile, a vu son efficacité et sa pertinence de recommandation s'améliorer substantiellement grâce à OneRec. L'entreprise continue d'investir dans la recherche et le développement pour améliorer davantage cette technologie, la positionnant comme un leader dans l'innovation des systèmes de recommandation. En conclusion, OneRec représente une avancée importante dans le domaine des systèmes de recommandation, offrant une solution simplifiée et performante qui s'aligne sur les objectifs industriels en matière de diversité et d'engagement des utilisateurs.

Related Links