HyperAI

Depuis cinq ans, mon équipe de recherche et développement en systèmes de recommandation (RecSys) chez Yandex s’efforce de repousser les limites des modèles basés sur les transformers dans le domaine des recommandations. Un tournant majeur a été atteint en 2024 avec le déploiement d’un nouveau modèle, ARGUS, un système de recommandation autoregressif à grande échelle, contenant jusqu’à 1,007 milliard de paramètres. Ce progrès marque une avancée significative dans l’application des architectures transformer à des tâches de recommandation à grande échelle, en s’inspirant des principes des grands modèles linguistiques (LLM) tout en adaptant les méthodes à la spécificité des données de comportement utilisateur. Les systèmes de recommandation sont essentiels face à l’explosion du contenu disponible : musique, vidéos, produits, articles, etc. Leur rôle n’est pas seulement d’aider les utilisateurs à naviguer l’information, mais aussi de connecter les créateurs de contenu à leur public cible. Face à des catalogues de milliards d’éléments et des délais de réponse inférieurs à une milliseconde, les systèmes modernes fonctionnent en plusieurs étapes, souvent basées sur des modèles à deux tours (two-tower) : un encodeur pour les utilisateurs, un autre pour les items, avec une similarité calculée par produit scalaire. Cette architecture permet une recherche rapide via des index approximatifs comme HNSW, mais reste limitée en expressivité. Jusqu’ici, les modèles de recommandation étaient relativement petits, avec des encoders de quelques millions de paramètres, et utilisaient des tâches comme la prédiction du prochain item (SASRec), qui ne capture que les interactions positives. Or, l’hypothèse de mise à l’échelle en apprentissage profond suggère que des modèles plus grands, entraînés sur plus de données, devraient améliorer significativement la qualité. C’est ce que nous avons voulu tester. Notre approche, ARGUS (AutoRegressive Generative User Sequential modeling), repose sur trois piliers : 1. Un encodage autoregressif de l’historique utilisateur, traitant chaque interaction comme un triple (contexte, item, feedback), au lieu de se limiter aux actions positives. 2. Deux tâches d’apprentissage simultanées : prédire le prochain item (y compris les interactions négatives) et prédire le feedback (like, écoute partielle, ajout à une playlist). 3. Une pré-formation sur des données massives (300 milliards d’écoutes) suivie d’un fin-tuning efficace, en exploitant des masques causaux pour traiter l’historique entier d’un utilisateur en une seule passe du transformer. Contrairement aux modèles classiques, ARGUS ne se contente pas d’imiter les politiques de recommandation passées. Il apprend à comprendre les préférences fondamentales des utilisateurs, en intégrant des contextes variés (appareil, moment, page) et en modélisant les réactions négatives. Cela lui permet de mieux gérer les cas difficiles, comme la découverte de nouveaux contenus (scénario "Unfamiliar" dans notre service de musique), où l’efficacité a augmenté de 12 % en temps d’écoute. L’expérimentation a montré une loi d’échelle claire : plus le modèle est grand, plus la qualité augmente, avec une corrélation linéaire entre le logarithme du nombre de paramètres et la performance. Même en comparaison avec HSTU, un modèle récent de Meta, les transformers d’ARGUS ont montré des performances supérieures, malgré une taille similaire. L’approche a permis une accélération de 10 à 100 fois dans le fin-tuning, grâce à un traitement par lot de l’historique complet d’un utilisateur. Le déploiement d’ARGUS a eu un impact significatif : - +1,5 % de temps d’écoute sur les enceintes intelligentes, - +10 % de probabilité de "like" pour les recommandations personnalisées, - +12 % de temps d’écoute dans le mode "Découverte", - Et une amélioration équivalente à l’ensemble des progrès précédents combinés. ARGUS n’est pas seulement un modèle de ranking : il est aussi utilisé pour la génération de candidats, et ses vecteurs d’utilisateur sont intégrés dans des modèles de ranking plus complexes. Cette évolution montre que les réseaux neuronaux transformer, bien qu’encore coûteux à entraîner, sont désormais viables à grande échelle dans des systèmes de production réels. En somme, ce travail confirme que les modèles de recommandation peuvent être échelonnés de manière significative, que l’encodage autoregressif enrichi de contexte et de feedback est plus puissant que les approches classiques, et que l’avenir des systèmes de recommandation réside dans l’adoption de paradigmes inspirés des LLM, mais adaptés à la richesse des données de comportement humain.

Liens associés

Liens associés

Liens associés

Au-delà De La Réalité Visuelle : Le Nouveau Système D’évaluation De Tsinghua WorldArena Révèle Le Déficit De Capacités Dans Les Modèles Du Monde Incarné

Au-delà De La Réalité Visuelle : Le Nouveau Système D’évaluation De Tsinghua WorldArena Révèle Le Déficit De Capacités Dans Les Modèles Du Monde Incarné

Command Palette

Yandex déploie un recommender transformer à un milliard de paramètres, révolutionnant la précision des recommandations

Liens associés

Command Palette

Yandex déploie un recommender transformer à un milliard de paramètres, révolutionnant la précision des recommandations

Liens associés

Command Palette

Yandex déploie un recommender transformer à un milliard de paramètres, révolutionnant la précision des recommandations

Liens associés

Au-delà De La Réalité Visuelle : Le Nouveau Système D’évaluation De Tsinghua WorldArena Révèle Le Déficit De Capacités Dans Les Modèles Du Monde Incarné

Au-delà De La Réalité Visuelle : Le Nouveau Système D’évaluation De Tsinghua WorldArena Révèle Le Déficit De Capacités Dans Les Modèles Du Monde Incarné