il y a 14 heures

Rapport technique de RecGPT

Chao Yi; Dian Chen; Gaoyang Guo; Jiakai Tang; Jian Wu; Jing Yu; Sunhao Dai; Wen Chen; Wenjun Yang; Yuning Jiang; Zhujin Gao; Bo Zheng; Chi Li; Dimin Wang; Dixuan Wang; Fan Li; Fan Zhang; Haibin Chen; Haozhuang Liu; Jialin Zhu; Jiamang Wang; Jiawei Wu; Jin Cui; Ju Huang; Kai Zhang; Kan Liu; Lang Tian; Liang Rao; Longbin Li; Lulu Zhao; Mao Zhang; Na He; Peiyang Wang; Qiqi Huang; Tao Luo; Wenbo Su; Xiaoxiao He; Xin Tong; Xu Chen; Xunke Xi; Yang Li; Yaxuan Wu; Yeqiu Yang; Yi Hu; Yinnan Song; Yuchen Li; Yujie Luo; Yujin Yuan; Yuliang Yan; Zhengyang Wang; Zhibo Xiao; Zhixin Ma; Zile Zhou

Voir les détails de l'article

Résumé

Les systèmes de recommandation figurent parmi les applications les plus influentes de l’intelligence artificielle, servant de fondation critique pour relier utilisateurs, commerçants et plateformes. Toutefois, la plupart des systèmes industriels actuels restent fortement dépendants des modèles historiques d’occurrence conjointe et des objectifs d’ajustement aux logs (log-fitting), c’est-à-dire l’optimisation des interactions passées des utilisateurs sans modélisation explicite de leur intention. Cette approche fondée sur l’ajustement aux logs conduit fréquemment à un surapprentissage des préférences historiques restreintes, empêchant ainsi de capturer les intérêts évolutifs et latents des utilisateurs. En conséquence, elle renforce les bulles de filtre et les phénomènes de longue traîne, nuisant finalement à l’expérience utilisateur et menaçant la durabilité de l’écosystème de recommandation dans son ensemble.Pour relever ces défis, nous repensons l’ensemble du paradigme de conception des systèmes de recommandation et proposons RecGPT, un cadre de nouvelle génération qui place l’intention de l’utilisateur au cœur du processus de recommandation. En intégrant des modèles de langage à grande échelle (LLM) aux étapes clés du mining des intérêts utilisateur, de la récupération d’articles et de la génération d’explications, RecGPT transforme la recommandation fondée sur l’ajustement aux logs en un processus centré sur l’intention. Pour aligner efficacement les LLM généralistes sur ces tâches spécifiques au domaine à grande échelle, RecGPT met en œuvre un paradigme d’entraînement en plusieurs étapes, combinant une pré-alignement renforcé par la raison et une évolution par auto-entraînement, guidés par un système de jugement coopératif humain-LLM. À ce jour, RecGPT est pleinement déployé sur l’application Taobao. Les expérimentations en production montrent que RecGPT obtient des gains de performance constants pour l’ensemble des parties prenantes : les utilisateurs bénéficient d’une diversité accrue du contenu et d’une plus grande satisfaction, tandis que les commerçants et la plateforme voient leur visibilité et leurs taux de conversion s’améliorer. Ces résultats globaux d’amélioration, observés chez tous les acteurs, valident que la conception orientée intention, pilotée par les LLM, peut favoriser un écosystème de recommandation plus durable et mutuellement bénéfique.