HyperAIHyperAI
il y a 7 jours

Les actions parlent plus fort que les mots : transducteurs séquentiels à trillion de paramètres pour des recommandations génératives

Jiaqi Zhai, Lucy Liao, Xing Liu, Yueming Wang, Rui Li, Xuan Cao, Leon Gao, Zhaojie Gong, Fangda Gu, Michael He, Yinghai Lu, Yu Shi
Les actions parlent plus fort que les mots : transducteurs séquentiels à trillion de paramètres pour des recommandations génératives
Résumé

Les systèmes de recommandation à grande échelle se caractérisent par leur dépendance à des fonctionnalités de haute cardinalité et hétérogènes, ainsi que par la nécessité de traiter des dizaines de milliards d’actions utilisateur quotidiennement. Malgré une formation sur de volumineux ensembles de données incluant des milliers de fonctionnalités, la plupart des modèles de recommandation basés sur l’apprentissage profond (DLRMs) utilisés dans l’industrie peinent à s’échelonner efficacement en fonction de la puissance de calcul disponible.S’inspirant des succès obtenus par les Transformers dans les domaines du langage et de la vision, nous repensons les choix fondamentaux de conception des systèmes de recommandation. Nous reformulons les problèmes de recommandation comme des tâches de transduction séquentielle dans un cadre de modélisation générative (« Recommendeurs génératifs »), et proposons une nouvelle architecture, HSTU, conçue pour gérer des données de recommandation à haute cardinalité et non stationnaires en flux continu.HSTU surpasse les modèles de référence sur des jeux de données synthétiques et publics, avec une amélioration maximale de 65,8 % en NDCG, et est de 5,3 à 15,2 fois plus rapide que les Transformers basés sur FlashAttention2 pour des séquences de longueur 8192. Les recommendeurs génératifs basés sur HSTU, comprenant 1,5 trillion de paramètres, améliorent les métriques dans des tests A/B en production de 12,4 %, et ont été déployés sur plusieurs surfaces d’une grande plateforme internet comptant des milliards d’utilisateurs. Plus important encore, la qualité du modèle des recommendeurs génératifs s’accroît empiriquement selon une loi de puissance en fonction de la puissance de calcul utilisée pour l’entraînement, sur trois ordres de grandeur, atteignant à ce jour des échelles comparables à celles de GPT-3 ou LLaMa-2. Ce phénomène réduit significativement l’empreinte carbone nécessaire au développement futur des modèles, et ouvre la voie vers la mise au point des premiers modèles fondamentaux pour la recommandation.

Les actions parlent plus fort que les mots : transducteurs séquentiels à trillion de paramètres pour des recommandations génératives | Articles de recherche récents | HyperAI