7 天前

用于基于原始像素的推荐系统基准测试的图像数据集

Yu Cheng, Yunzhu Pan, Jiaqi Zhang, Yongxin Ni, Aixin Sun, Fajie Yuan
用于基于原始像素的推荐系统基准测试的图像数据集
摘要

推荐系统(Recommender Systems, RS)通过利用显式标识(ID)特征已取得显著成功。然而,内容特征——尤其是纯图像像素特征——的全部潜力仍远未被充分挖掘。受限于大规模、多样化且以内容驱动的图像推荐数据集的稀缺,原始图像作为物品表示的应用受到严重制约。为此,我们提出了PixelRec,一个大规模以图像为中心的推荐数据集,包含约2亿条用户-图像交互记录、3000万名用户以及40万张高质量封面图像。通过提供对原始图像像素的直接访问,PixelRec使推荐模型能够直接从像素层面学习物品表示。为验证该数据集的实用性,我们首先基于PixelRec训练了几种经典的纯ID驱动基线模型(称为IDNet),并报告其性能结果。随后,为展示数据集图像特征的有效性,我们将IDNet中的物品ID嵌入(itemID embeddings)替换为一个强大的视觉编码器,该编码器使用物品的原始图像像素来表示其内容。这一新模型被命名为PixelNet。实验结果表明,在标准的非冷启动推荐场景下,尽管IDNet已被广泛认为具有极高的有效性,PixelNet仍能实现与之相当甚至更优的性能。此外,PixelNet在冷启动推荐和跨域推荐等场景中展现出多项显著优势。这些发现凸显了PixelRec中视觉特征的关键作用。我们认为,PixelRec可成为推动强调图像像素内容的推荐模型研究的重要资源与基准测试平台。相关数据集、代码及排行榜将公开发布于:https://github.com/westlake-repl/PixelRec。

用于基于原始像素的推荐系统基准测试的图像数据集 | 最新论文 | HyperAI超神经