TF4CTR : Cadre à Double Focus pour la Prédiction du Taux de Clic via une Différenciation Adaptative des Échantillons

La modélisation efficace des interactions entre caractéristiques est essentielle pour améliorer la précision de la prédiction du taux de clic (CTR) dans les systèmes de recommandation industriels. La plupart des modèles profonds actuels en CTR s'appuient sur la conception d'architectures réseau complexes afin de mieux capturer des interactions entre caractéristiques intriquées ou des comportements d'utilisateurs. Toutefois, nous identifions deux limites dans ces modèles : (1) les échantillons fournis au modèle sont traités de manière homogène, ce qui peut conduire le modèle à apprendre de manière unilatérale un grand nombre d'échantillons faciles tout en négligeant un petit nombre d'échantillons difficiles, réduisant ainsi sa capacité de généralisation ; (2) des encodeurs d'interaction entre caractéristiques différenciés sont conçus pour capturer des informations d'interaction variées, mais reçoivent des signaux de supervision identiques, ce qui limite leur efficacité. Pour combler ces lacunes, ce papier introduit un nouveau cadre de prédiction CTR en intégrant la fonction de perte plug-and-play Twin Focus (TF), le module d'embedding de sélection d'échantillons (SSEM) et le module de fusion dynamique (DFM), nommé Twin Focus Framework for CTR (TF4CTR). Plus précisément, le cadre utilise le SSEM en bas du modèle pour différencier les échantillons, attribuant ainsi un encodeur plus adapté à chaque échantillon. Parallèlement, la perte TF fournit des signaux de supervision personnalisés aux encodeurs simples et complexes. En outre, le module DFM fusionne dynamiquement les informations d'interaction entre caractéristiques capturées par les encodeurs, conduisant à des prédictions plus précises. Des expériences menées sur cinq jeux de données réels confirment l'efficacité et la compatibilité du cadre, démontrant sa capacité à améliorer diverses architectures de référence de manière indépendante du modèle. Pour faciliter la recherche reproductible, notre code open source et les journaux d'exécution détaillés seront mis à disposition à l'adresse suivante : https://github.com/salmon1802/TF4CTR.