Transformers à fonctionnalités multi-modales et contexte post-fusion pour la recommandation basée sur les sessions dans le commerce électronique

La recommandation basée sur les sessions est une tâche essentielle pour les services de commerce électronique, où un grand nombre d’utilisateurs naviguent de manière anonyme ou peuvent avoir des intérêts très différents d’une session à l’autre. Dans cet article, nous présentons l’une des solutions primées pour la tâche de recommandation du SIGIR 2021 Workshop sur le E-commerce Data Challenge. Notre approche s’inspire des techniques de traitement du langage naturel (NLP) et repose sur un ensemble de deux architectures Transformer – Transformer-XL et XLNet – entraînées respectivement selon des approches autoregressives et auto-encodantes. Afin d’exploiter au maximum les données riches mises à disposition pour la compétition, nous décrivons la manière dont nous avons construit des caractéristiques multi-modèles en combinant des événements tabulaires avec des vecteurs textuels et visuels. Nous présentons également une analyse des prédictions du modèle afin de mieux comprendre l’efficacité de nos architectures pour la recommandation basée sur les sessions.