CARCA : Recommandation du prochain élément sensible au contexte et aux attributs par attention croisée

Dans les systèmes de recommandation à faible densité, le contexte utilisateur et les attributs des items jouent un rôle crucial dans la détermination des items à recommander ensuite. Pourtant, les travaux récents sur les recommandations séquentielles et temporellement conscientes négligent généralement ces deux aspects ou ne prennent en compte qu’un seul d’entre eux, ce qui limite leur performance prédictive. Dans cet article, nous surmontons ces limitations en proposant un modèle de recommandation sensible au contexte et aux attributs (CARCA), capable de capturer la nature dynamique des profils utilisateurs en termes de caractéristiques contextuelles et d’attributs d’items grâce à des blocs d’attention auto-associative multi-têtes dédiés à l’extraction de caractéristiques au niveau du profil et à la prédiction des scores d’items. De plus, contrairement à de nombreuses approches d’état de l’art actuelles qui utilisent un simple produit scalaire entre les caractéristiques latentes de l’item le plus récent et les embeddings des items cibles pour le scoring, CARCA met en œuvre une attention croisée entre tous les items du profil utilisateur et l’item cible afin de prédire leurs scores finaux. Cette attention croisée permet à CARCA d’exploiter la corrélation entre les items anciens et récents du profil utilisateur, ainsi que leur influence respective sur la décision de recommandation de l’item suivant. Des expérimentations sur quatre jeux de données réels de systèmes de recommandation montrent que le modèle proposé dépasse significativement tous les modèles d’état de l’art dans la tâche de recommandation d’items, atteignant des améliorations allant jusqu’à 53 % en termes de Normalized Discounted Cumulative Gain (NDCG) et de Hit-Ratio. Les résultats montrent également que CARCA surpasser plusieurs systèmes de recommandation spécialisés basés sur les images d’état de l’art, en ne s’appuyant que sur des attributs d’images extraits de manière noire-box à partir d’un modèle pré-entraîné ResNet50.