il y a un mois

Sur la difficulté d’évaluer les baselines : une étude sur les systèmes de recommandation

Steffen Rendle; Li Zhang; Yehuda Koren

Résumé

Les évaluations numériques avec des comparaisons aux méthodes de référence jouent un rôle central dans l'appréciation des recherches en systèmes de recommandation. Dans cet article, nous montrons que l'exécution correcte des méthodes de référence est difficile. Nous illustrons ce problème sur deux jeux de données largement étudiés. Premièrement, nous démontrons que les résultats obtenus pour les méthodes de référence utilisées dans de nombreuses publications au cours des cinq dernières années pour le benchmark Movielens 10M sont sous-optimaux. Grâce à une configuration minutieuse d'une factorisation matricielle simple (vanilla matrix factorization), nous sommes non seulement capables d'améliorer les résultats rapportés pour cette méthode de référence, mais même de surpasser les résultats rapportés de toute méthode récemment proposée. Deuxièmement, nous rappelons l'effort considérable requis par la communauté pour obtenir des résultats de haute qualité avec des méthodes simples lors du concours Netflix Prize. Nos résultats suggèrent que les constatations empiriques présentées dans les articles de recherche sont remises en question sauf si elles ont été obtenues sur des benchmarks standardisés où les méthodes de référence ont été largement ajustées par la communauté scientifique.