Sapling 유사도: 추천을 위한 성능이 우수하고 해석 가능한 메모리 기반 도구

다수의 이분 그래프는 사용자와 아이템 간의 관계를 엣지로 표현하는 시스템을 묘사한다. 사용자 간 또는 아이템 간의 유사도를 측정하는 것은 메모리 기반 협업 필터링(memory-based collaborative filtering)의 기초가 되며, 이는 사용자에게 적절한 아이템을 제안하는 목적으로 널리 사용되는 추천 시스템 구축 방법이다. 엣지가 무가중치인 경우, 일반적으로 사용되는 공통 이웃 기반 접근법은 양의 유사도 값만 허용하기 때문에, 두 사용자(또는 두 아이템)가 매우 다를 수 있다는 가능성과 그 영향을 간과하게 된다. 또한, 모델 기반(머신러닝 기반) 접근법에 비해 성능이 낮은 편이지만, 해석 가능성은 높은 편이다. 의사결정 트리(Decision Trees)의 작동 원리를 영감으로 삼아, 음의 유사도 값을 허용하는 새로운 유사도 측정 방법인 '사플링 유사도(Sapling Similarity)'를 제안한다. 핵심 아이디어는, 한 사용자가 특정 아이템과 연결되어 있다는 정보가 다른 사용자도 그 아이템과 연결되어 있을 가능성에 미치는 영향을 분석하는 것이다. 만약 이 정보가 해당 확률을 감소시킨다면, 두 사용자 간의 유사도는 음수가 되며, 반대로 증가시키면 양수가 된다. 우리는 사플링 유사도를 메모리 기반 협업 필터링 구축에 적용했을 때, 기존의 유사도 측정 기법보다 더 우수한 추천 성능을 제공함을 보여준다. 이후 사플링 유사도 협업 필터링(SSCF, 아이템 기반과 사용자 기반의 하이브리드 방식)을 표준 데이터셋을 활용해 최신 모델들과 비교하였다. SSCF는 단 하나의 직관적인 하이퍼파라미터에 의존함에도 불구하고, 비교적 높은 추천 정확도를 보이며, 아마존-북(Amazon-Book) 데이터셋에서는 모든 다른 모델을 능가하는 성능을 기록했으며, 동시에 메모리 기반 접근법의 높은 해석 가능성도 유지하고 있다.