DeepLight : Interactions profondes et légères sur les caractéristiques pour accélérer les prédictions de taux de clic (CTR) dans les systèmes de diffusion publicitaire

La prédiction du taux de clic (CTR) constitue une tâche essentielle dans la publicité display en ligne. Les réseaux neuronaux basés sur des embeddings ont été proposés pour apprendre à la fois les interactions explicites entre caractéristiques grâce à un composant léger, ainsi que les interactions profondes via un composant réseau neuronal profond (DNN). Toutefois, ces modèles sophistiqués ralentissent considérablement l’inférence de prédiction, au moins d’un facteur centuple. Afin de résoudre le problème d’un délai de service sensiblement accru et d’une utilisation mémoire élevée lors du service publicitaire en production, ce papier présente \emph{DeepLight} : un cadre visant à accélérer la prédiction du CTR selon trois axes : 1) accélérer l’inférence du modèle en recherchant explicitement les interactions entre caractéristiques pertinentes dans le composant léger ; 2) élaguer les couches redondantes et les paramètres au niveau intra-couche et inter-couche dans le composant DNN ; 3) favoriser la sparsité du couche d’embedding afin de préserver les signaux les plus discriminants. En combinant ces approches, la méthode proposée accélère l’inférence du modèle de 46 fois sur le jeu de données Criteo et de 27 fois sur le jeu de données Avazu, sans aucune perte de précision de prédiction. Cela ouvre la voie à un déploiement réussi de modèles complexes basés sur des embeddings dans un environnement de production pour le service publicitaire.