
摘要
许多二部网络描述的是用户与物品之间关系的系统,其中边表示用户与物品之间的关联。衡量用户之间或物品之间的相似性,是基于记忆的协同过滤(memory-based collaborative filtering)方法的核心,而该方法被广泛用于构建推荐系统,以向用户推荐潜在感兴趣的项目。当网络中的边为无权边时,当前流行的基于共同邻居的相似性度量方法仅能产生非负的相似性值,从而忽略了两个用户(或两个物品)可能高度不相似的可能性及其影响。此外,尽管这些方法具有较高的可解释性,但在性能上仍逊于基于模型(机器学习)的方法。受决策树(Decision Trees)工作机制的启发,我们提出了一种新的相似性计算方法——Sapling相似性(Sapling Similarity),该方法允许相似性取负值。其核心思想在于:考察一个用户与某物品相连这一信息,如何影响我们对另一个用户也与该物品相连的先验概率的估计。若该信息降低了这一概率,则表明两个用户之间的相似性为负;反之,则为正。我们证明,当用于构建基于记忆的协同过滤系统时,Sapling相似性相较于现有相似性度量方法能够提供更优的推荐结果。进一步地,我们将Sapling相似性协同过滤(Sapling Similarity Collaborative Filtering, SSCF)——一种结合了基于物品与基于用户的协同过滤的混合模型——与当前最先进的推荐模型在标准数据集上进行了对比。尽管SSCF仅依赖一个直观的超参数,其推荐准确率仍达到与先进模型相当甚至更高的水平,并在Amazon-Book数据集上超越了所有其他模型,同时保持了基于记忆方法所具有的高可解释性优势。