Un jeu de données d’images pour l’évaluation des systèmes de recommandation à partir de pixels bruts

Les systèmes de recommandation (RS) ont connu un succès significatif en exploitant les caractéristiques d’identification explicite (ID). Toutefois, le potentiel complet des caractéristiques de contenu, en particulier des caractéristiques brutes de pixels d’image, reste relativement peu exploré. La disponibilité limitée de jeux de données d’image pour la recommandation à grande échelle, diversifiés et centrés sur le contenu, a freiné l’utilisation d’images brutes comme représentations d’éléments. À cet égard, nous présentons PixelRec, un jeu de données massif centré sur les images, comprenant environ 200 millions d’interactions utilisateur-image, 30 millions d’utilisateurs et 400 000 images de couverture de haute qualité. En offrant un accès direct aux pixels d’image bruts, PixelRec permet aux modèles de recommandation d’apprendre directement les représentations d’éléments à partir de ces pixels. Pour illustrer son utilité, nous commençons par présenter les résultats de plusieurs modèles de base classiques fondés uniquement sur les ID, appelés IDNet, entraînés sur PixelRec. Ensuite, afin de démontrer l’efficacité des caractéristiques d’image du jeu de données, nous remplaçons les embeddings d’itemID (issus d’IDNet) par un puissant encodeur visuel capable de représenter les éléments à partir de leurs pixels d’image bruts. Ce nouveau modèle est désigné PixelNet. Nos résultats indiquent que même dans des scénarios standards de recommandation, sans problème de démarrage froid (non-cold start), où IDNet est reconnu comme hautement performant, PixelNet parvient déjà à se montrer aussi performant, voire supérieur à IDNet. En outre, PixelNet présente plusieurs avantages notables par rapport à IDNet, notamment une meilleure efficacité dans les scénarios de recommandation à démarrage froid et de recommandation transverse (cross-domain). Ces résultats mettent en évidence l’importance cruciale des caractéristiques visuelles dans PixelRec. Nous pensons que PixelRec peut devenir une ressource essentielle et un terrain d’expérimentation pour la recherche sur les modèles de recommandation mettant l’accent sur le contenu des pixels d’image. Le jeu de données, le code source et le classement seront disponibles à l’adresse suivante : https://github.com/westlake-repl/PixelRec.