FinalMLP : un modèle MLP à deux flux amélioré pour la prédiction du taux de clic (CTR)

La prédiction du taux de clic (CTR) constitue l'une des tâches fondamentales dans la publicité en ligne et la recommandation. Bien que le perceptron multicouche (MLP) soit un composant central dans de nombreux modèles profonds de prédiction CTR, il est largement reconnu que l’utilisation d’un réseau MLP « vanilla » seul s’avère inefficace pour apprendre les interactions multiplicatives entre caractéristiques. À cet effet, de nombreux modèles à deux flux (par exemple, DeepFM et DCN) ont été proposés en intégrant un réseau MLP à un autre réseau dédié afin d’améliorer la prédiction CTR. Étant donné que le flux MLP apprend les interactions entre caractéristiques de manière implicite, la recherche existante se concentre principalement sur l’amélioration des interactions explicites au sein du flux complémentaire. En contraste, notre étude empirique montre qu’un modèle à deux flux MLP bien réglé, consistant simplement à combiner deux réseaux MLP, peut atteindre des performances étonnamment bonnes — une observation jamais rapportée auparavant dans les travaux antérieurs. À partir de cette observation, nous proposons par la suite des couches de mise en œuvre des caractéristiques (feature gating) et d’agrégation des interactions, facilement intégrables pour former un modèle MLP à deux flux amélioré, nommé FinalMLP. Ce modèle permet non seulement une différenciation des entrées de caractéristiques, mais aussi une fusion efficace des interactions au niveau des flux entre les deux canaux. Nos résultats d’évaluation sur quatre jeux de données de référence ouverts, ainsi qu’un test A/B en production dans notre système industriel, démontrent que FinalMLP surpasser de nombreux modèles sophistiqués à deux flux pour la prédiction CTR. Le code source sera disponible à l’adresse MindSpore/models.