Sapling Similarity: ein leistungsstarker und interpretierbarer, auf Memory basierender Ansatz für Empfehlungen

Viele bipartite Netzwerke beschreiben Systeme, in denen eine Kante eine Beziehung zwischen einem Nutzer und einem Item darstellt. Die Messung der Ähnlichkeit zwischen Nutzern oder Items bildet die Grundlage für memory-based kollaborative Filterung, eine weit verbreitete Methode zur Entwicklung von Empfehlungssystemen mit dem Ziel, Nutzern geeignete Items vorzuschlagen. Bei ungewichteten Kanten der Netzwerke vernachlässigen gängige Ansätze basierend auf gemeinsamen Nachbarn, die nur positive Ähnlichkeitswerte zulassen, die Möglichkeit und Wirkung, dass zwei Nutzer (bzw. zwei Items) sehr unähnlich sein können. Zudem erzielen diese Ansätze eine geringere Leistungsfähigkeit im Vergleich zu modellbasierten (maschinellen Lern-) Ansätzen, obwohl sie eine höhere Interpretierbarkeit bieten. Inspiriert durch die Funktionsweise von Entscheidungsbäumen schlagen wir eine Methode zur Ähnlichkeitsberechnung vor, die auch negative Werte zulässt: die Sapling-Ähnlichkeit. Der zentrale Gedanke besteht darin, zu analysieren, wie die Information, dass ein Nutzer mit einem Item verbunden ist, unsere vorherige Schätzung der Wahrscheinlichkeit beeinflusst, dass ein anderer Nutzer ebenfalls mit diesem Item verbunden ist: Wenn sich diese Wahrscheinlichkeit verringert, ist die Ähnlichkeit zwischen den beiden Nutzern negativ, andernfalls positiv. Wir zeigen, dass die Sapling-Ähnlichkeit, wenn sie zur Entwicklung von memory-based kollaborativen Filtern eingesetzt wird, bessere Empfehlungen liefert als bestehende Ähnlichkeitsmaße. Anschließend vergleichen wir das Sapling-Ähnlichkeit-Kollaborative-Filtering (SSCF, eine Hybridform aus item-basiertem und user-basiertem Ansatz) mit aktuellen State-of-the-Art-Modellen anhand standardisierter Datensätze. Obwohl SSCF nur einen einfachen Hyperparameter besitzt, erreicht es vergleichbare oder höhere Genauigkeit bei der Empfehlung und übertrifft alle anderen Modelle auf dem Amazon-Book-Datensatz, wobei die hohe Erklärbarkeit der memory-based Ansätze erhalten bleibt.