Mémoriser, factoriser ou rester naïf : apprentissage des méthodes optimales d’interaction de caractéristiques pour la prédiction du taux de clic (CTR)

La prédiction du taux de clic (click-through rate, CTR) constitue l'une des tâches centrales des systèmes de recommandation commerciaux. Son objectif est de prédire la probabilité qu’un utilisateur clique sur un article donné, en fonction des caractéristiques de l’utilisateur et de l’article. Étant donné que les interactions entre caractéristiques introduisent une non-linéarité, elles sont largement utilisées pour améliorer la performance des modèles de prédiction CTR. Par conséquent, la modélisation efficace des interactions entre caractéristiques a suscité un grand intérêt tant dans le domaine de la recherche que dans l’industrie. Les approches actuelles peuvent généralement être classées en trois catégories : (1) les méthodes naïves, qui ne modélisent pas les interactions entre caractéristiques et utilisent uniquement les caractéristiques d’origine ; (2) les méthodes mémoires, qui mémorisent les interactions entre caractéristiques en les traitant explicitement comme de nouvelles caractéristiques et en leur attribuant des embeddings entraînables ; (3) les méthodes factorisées, qui apprennent des vecteurs latents pour les caractéristiques d’origine et modélisent implicitement les interactions par des fonctions de factorisation. Des études ont montré que la modélisation des interactions par l’une de ces méthodes seule est sous-optimale, en raison des caractéristiques uniques de chaque type d’interaction. Pour remédier à ce problème, nous proposons tout d’abord un cadre général appelé OptInter, qui identifie la méthode de modélisation la plus adaptée pour chaque interaction entre caractéristiques. Différents modèles profonds d’état de l’art pour la prédiction CTR peuvent être considérés comme des instances spécifiques du cadre OptInter. Pour mettre en œuvre ce cadre, nous introduisons également un algorithme d’apprentissage qui recherche automatiquement la méthode de modélisation optimale. Nous menons des expériences étendues sur quatre grands jeux de données. Nos résultats montrent qu’OptInter améliore les meilleurs modèles de référence d’état de l’art pour la prédiction CTR de jusqu’à 2,21 %. Par rapport à la méthode mémoire, qui elle-même surpasse les modèles de référence, nous réduisons jusqu’à 91 % du nombre de paramètres. En outre, nous menons plusieurs études d’ablation afin d’analyser l’impact de différentes composantes du cadre OptInter. Enfin, nous fournissons des discussions interprétables sur les résultats obtenus avec OptInter.