STEC : Encodeur basé sur Transformer à vision transparente pour la prédiction CTR

La prédiction du taux de clic (CTR) occupe une place centrale dans les systèmes de publicité en ligne et de recommandation, car la performance de cette prédiction influence directement la satisfaction des utilisateurs ainsi que les revenus générés par les entreprises. Malgré cela, la prédiction du CTR reste un domaine actif de recherche, en raison de la difficulté à modéliser avec précision les préférences des utilisateurs à partir de caractéristiques rares et de haute dimension, où les interactions d'ordre supérieur entre plusieurs caractéristiques peuvent entraîner des résultats très variés.La plupart des modèles de prédiction du CTR s'appuient sur une seule stratégie de fusion et d'apprentissage des interactions. Les rares modèles qui ont exploité plusieurs stratégies de modélisation des interactions les traitent comme des entités autonomes. Dans cet article, nous proposons un nouveau modèle nommé STEC, qui exploite les avantages de plusieurs approches d'apprentissage des interactions au sein d'une architecture unifiée. En outre, notre modèle introduit des connexions résiduelles issues d'interactions d'ordres différents, ce qui améliore significativement les performances en permettant aux interactions d'ordre inférieur d'influencer directement les prédictions. À travers des expérimentations étendues sur quatre jeux de données réels, nous démontrons que STEC surpasse les approches les plus avancées existantes pour la prédiction du CTR, grâce à sa capacité d'expression accrue.