HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un an

Pré-entraînement multimodal et génération pour la recommandation : un tutoriel

Jieming Zhu Rui Zhang Chuhan Wu Zhenhua Dong

Tutoriel : Utilisation de LangChain avec vLLM

20 heures de calcul sur RTX 5090 pour seulement $1 (valeur $7)
Aller à Notebook

Résumé

Titre : [Titre non fourni]

Résumé : La recommandation personnalisée constitue un canal omniprésent permettant aux utilisateurs d’explorer des informations ou des articles alignés sur leurs intérêts. Néanmoins, les modèles de recommandation actuels reposent principalement sur des identifiants uniques (IDs) et des caractéristiques catégorielles pour l’appariement utilisateur-article. Bien que cette approche centrée sur l’ID ait connu un succès considérable, elle s’avère insuffisante pour saisir de manière exhaustive l’essence du contenu brut des articles dans diverses modalités, telles que le texte, l’image, l’audio et la vidéo. Cette sous-utilisation des données multimodales constitue une limite pour les systèmes de recommandation, en particulier dans le domaine des services multimédias tels que les plateformes d’actualités, de musique et de vidéos courtes. La récente expansion des techniques de préentraînement et de génération présente à la fois des opportunités et des défis dans le développement des systèmes de recommandation multimodaux. Ce tutoriel vise à offrir une exploration approfondie des avancées récentes et des trajectoires futures en matière de techniques de préentraînement et de génération multimodales dans le domaine des systèmes de recommandation. Le tutoriel se compose de trois parties : le préentraînement multimodal, la génération multimodale, ainsi que les applications industrielles et les défis ouverts dans le domaine de la recommandation. Notre public cible comprend les chercheurs, les praticiens et toute autre partie prenante intéressée par ce domaine.

One-sentence Summary

This tutorial surveys the transition from ID-centric recommendation models to multimodal pretraining and generation frameworks, detailing how text, image, audio, and video data address categorical feature limitations on news, music, and short-video platforms while systematically covering multimodal pretraining techniques, generation methods, and industrial applications alongside open research challenges.

Key Contributions

  • This tutorial systematically covers multimodal pretraining and generation techniques to overcome the limitations of conventional ID-based recommenders that fail to capture rich cross-modal item content. It establishes a structured framework that transitions from foundational pretraining methods to generation-based approaches for recommendation systems.
  • Unlike prior surveys that focus on general multimodal learning or introductory hands-on projects, this work specifically examines the practical adaptation and integration of pretrained multimodal models into recommendation pipelines. It details methodologies for the efficient and personalized adaptation of multimodal large language models to recommendation tasks.
  • The tutorial substantiates its framework with documented industrial deployment cases from platforms such as Alibaba, JD.com, Tencent, Baidu, Xiaohongshu, Pinterest, and Huawei. It also outlines critical open challenges in multimodal representation fusion, multi-domain pretraining, AIGC for recommendation, and standardized benchmarking.

Introduction

Personalized recommendation systems power content discovery across digital platforms, yet conventional architectures predominantly rely on user and item identifiers paired with categorical features. This ID-centric approach fails to capture the rich semantic information embedded in raw text, images, and audio, which severely limits performance in multimedia-driven applications like news and short-video platforms. The authors leverage recent advances in multimodal pretraining and generative AI to reframe how recommendation systems process cross-modal data. They systematically outline practical adaptation frameworks, detail emerging applications of AI-generated content for personalized recommendations, and distill real-world industrial deployments alongside critical research challenges.

Dataset

  • Dataset composition and sources: The authors do not provide dataset composition or source information in the submitted text, which only lists tutorial speakers and a session schedule.
  • Key details for each subset: No subset sizes, origins, or filtering rules are described in the material.
  • How the paper uses the data: The text does not specify training splits, mixture ratios, or data processing workflows. It instead outlines a tutorial agenda focused on multimodal pretraining and generation for recommendation.
  • Cropping strategy, metadata construction, or other processing details: The provided content contains no information regarding cropping strategies, metadata assembly, or any other preprocessing steps.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp