Similarité Sapling : un outil basé sur la mémoire performant et interprétable pour la recommandation

De nombreux réseaux bipartites décrivent des systèmes où une arête représente une relation entre un utilisateur et un élément. La mesure de similarité entre utilisateurs ou entre éléments constitue la base du filtrage collaboratif basé sur la mémoire, une méthode largement utilisée pour concevoir des systèmes de recommandation visant à proposer des éléments aux utilisateurs. Lorsque les arêtes du réseau sont non pondérées, les approches classiques fondées sur le nombre de voisins communs, qui ne permettent que des valeurs de similarité positives, négligent la possibilité et l'effet d'une forte dissimilarité entre deux utilisateurs (ou deux éléments). En outre, ces méthodes se révèlent inférieures aux approches basées sur des modèles (apprentissage automatique), bien qu’offrant une meilleure interprétabilité. Inspirés par le fonctionnement des arbres de décision, nous proposons une méthode de calcul de similarité permettant également des valeurs négatives, appelée Similarité Sapling. L'idée centrale consiste à examiner comment l'information selon laquelle un utilisateur est relié à un élément influence notre estimation a priori de la probabilité qu’un autre utilisateur soit également relié à ce même élément : si cette probabilité diminue, la similarité entre les deux utilisateurs est négative ; sinon, elle est positive. Nous montrons que, lorsqu'elle est utilisée pour construire un filtrage collaboratif basé sur la mémoire, la Similarité Sapling permet d’obtenir de meilleures recommandations que les métriques de similarité existantes. Ensuite, nous comparons le filtrage collaboratif à similarité Sapling (SSCF, hybride entre les approches basées sur les éléments et celles basées sur les utilisateurs) avec des modèles de pointe sur des jeux de données standards. Bien que le SSCF dépende d’un seul hyperparamètre simple, il atteint une précision de recommandation comparable ou supérieure, et surpasser tous les autres modèles sur le jeu de données Amazon-Book, tout en conservant l’interprétabilité élevée propre aux approches basées sur la mémoire.