Über die Schwierigkeit der Bewertung von Baselines: Eine Studie zu Empfehlungssystemen

Numerische Bewertungen mit Vergleichen zu Baselines spielen eine zentrale Rolle bei der Beurteilung von Forschung in Empfehlungssystemen. In dieser Arbeit zeigen wir, dass das korrekte Durchführen von Baselines schwierig ist. Wir veranschaulichen dieses Problem anhand zweier intensiv untersuchter Datensätze. Erstens zeigen wir, dass die Ergebnisse für Baselines, die in den letzten fünf Jahren in zahlreichen Veröffentlichungen für den Movielens 10M Benchmark verwendet wurden, suboptimal sind. Mit einer sorgfältigen Einrichtung eines einfachen Matrix-Faktorisierungs-Baselines können wir nicht nur die gemeldeten Ergebnisse für diese Baseline verbessern, sondern sogar die gemeldeten Ergebnisse aller neu vorgeschlagenen Methoden übertreffen. Zweitens erinnern wir daran, welche enorme Anstrengungen die Gemeinschaft aufwenden musste, um hochwertige Ergebnisse für einfache Methoden beim Netflix Prize zu erzielen. Unsere Ergebnisse deuten darauf hin, dass empirische Befunde in Forschungsartikeln fragwürdig sind, es sei denn, sie wurden auf standardisierten Benchmarks erzielt, bei denen Baselines von der Forschergemeinschaft ausgiebig optimiert wurden.