Sapling Similarity:推薦における実行性と解釈可能性を兼ね備えたメモリベースのツール

多くの二部ネットワークは、エッジがユーザーとアイテム間の関係を表すシステムを記述している。ユーザー間またはアイテム間の類似度を測定することは、メモリベースの協調フィルタリング(Memory-Based Collaborative Filtering)の基礎であり、ユーザーにアイテムを提案する目的で広く用いられるレコメンデーションシステム構築の手法である。エッジが重みなしの場合、一般的な共通近傍(Common Neighbors)に基づくアプローチは、類似度を正の値に限定するため、2人のユーザー(または2つのアイテム)が非常に異なる可能性やその影響を無視してしまう。さらに、モデルベース(機械学習)のアプローチと比較して性能が劣るが、解釈性は高いという特徴を持つ。決定木(Decision Trees)の動作原理に着想を得て、負の値も許容する類似度計算手法、すなわち「Sapling類似度」を提案する。この手法の核心的なアイデアは、あるユーザーが特定のアイテムに接続されているという情報が、別のユーザーがその同じアイテムに接続されていると予測する事前確率に与える影響を評価することにある。その影響が低下する場合、2人のユーザー間の類似度は負となる。逆に、影響が増加する場合は正の類似度となる。本研究では、メモリベースの協調フィルタリングの構築にSapling類似度を用いることで、従来の類似度指標よりも優れたレコメンデーション性能を達成できることを示す。さらに、標準データセットを用いてSapling類似度協調フィルタリング(SSCF:アイテムベースとユーザーベースのハイブリッド型)を最先端のモデルと比較した結果、SSCFは単一の直感的なハイパーパラメータに依存するにもかかわらず、他のすべてのモデルと同等または優れた推薦精度を示した。特にAmazon-Bookデータセットでは、すべての比較モデルを上回る性能を発揮しつつ、メモリベース手法に特徴的な高い解釈性を維持している。