تماثل الشجرة الصغيرة: أداة قائمة على الذاكرة، قابلة للأداء والتفاسير، للترشيح

تُعدّ الشبكات ثنائية الطرف (bipartite networks) وسيلة وصفية لأنظمة حيث تمثل الحواف علاقة بين مستخدم وعنصر (item). يُعد قياس التشابه بين المستخدمين أو بين العناصر الأساس في طريقة التصفية التعاونية القائمة على الذاكرة (memory-based collaborative filtering)، وهي طريقة شائعة جدًا لبناء أنظمة توصية تهدف إلى اقتراح عناصر للمستخدمين. عند افتراض أن الحواف في الشبكة غير موزونة (unweighted)، فإن الطرق الشائعة القائمة على جيران مشتركين (common neighbors) التي تسمح فقط بقيم تشابه موجبة، تتجاهل إمكانية وتأثير تباين كبير بين مستخدمين (أو عنصرين). علاوةً على ذلك، فإنها تؤدي أداءً أضعف مقارنةً بالطرق القائمة على النماذج (التعلم الآلي)، رغم أنها تتميز بقدر أكبر من الوضوح التفسيري. مستلهمين من آلية عمل أشجار القرار (Decision Trees)، نقترح طريقة جديدة لحساب التشابه تسمح بقيم سالبة أيضًا، ونطلق عليها اسم "تشابه سابلينغ" (Sapling Similarity). الفكرة الأساسية تكمن في تقييم كيف يؤثر ارتباط مستخدم بعنصر ما على تقديرنا الأولي لاحتمال ارتباط مستخدم آخر بنفس العنصر: فإذا قلّ هذا الاحتمال، فإن التشابه بين المستخدمين سيكون سالبًا، وإلا فسيكون موجبًا. نُظهر أن استخدام "تشابه سابلينغ" في بناء أنظمة التصفية التعاونية القائمة على الذاكرة يؤدي إلى توصيات أفضل مقارنةً بالمقاييس الحالية للتشابه. ثم نُقارن بين نظام التصفية التعاونية القائمة على "تشابه سابلينغ" (SSCF)، الذي يُعدّ مزيجًا بين النموذج القائم على العناصر والنموذج القائم على المستخدمين، والأنظمة الرائدة باستخدام مجموعات بيانات قياسية. ورغم أن SSCF يعتمد على معلمة فائقة بسيطة واحدة فقط، فإنه يحقق دقة توصية مماثلة أو أفضل من النماذج الأخرى، ويتفوق على جميع النماذج الأخرى في مجموعة بيانات أمازون-كتاب (Amazon-Book)، مع الحفاظ على الوضوح التفسيري العالي المميز للنماذج القائمة على الذاكرة.