1ヶ月前

ベースライン評価の困難さ:レコメンデーションシステムに関する研究

Steffen Rendle; Li Zhang; Yehuda Koren
ベースライン評価の困難さ:レコメンデーションシステムに関する研究
要約

数値評価と基準との比較は、推薦システムの研究を判断する際に中心的な役割を果たします。本論文では、適切な基準の実行が困難であることを示します。この問題を2つの広く研究されているデータセットで示します。まず、過去5年間に多くの論文で使用されてきたMovielens 10Mベンチマークの基準結果が最適ではないことを示します。単純な行列因子分解基準を慎重に設定することで、この基準の報告された結果だけでなく、新規手法の報告された結果よりも優れた性能を達成できました。次に、Netflix Prizeにおいてコミュニティが単純な手法の高品質な結果を得るために必要とした莫大な努力について再検討します。我々の結果は、標準化されたベンチマーク上で研究コミュニティによって十分に調整された基準を使用しなければ、研究論文での経験的発見が疑問視されるべきであることを示唆しています。

ベースライン評価の困難さ:レコメンデーションシステムに関する研究 | 最新論文 | HyperAI超神経