
초록
추천 시스템 연구를 평가할 때 기준선과의 수치적 비교가 핵심적인 역할을 합니다. 본 논문에서는 기준선을 적절히 실행하는 것이 어렵다는 점을 보여드립니다. 이 문제를 두 개의 철저히 연구된 데이터셋에서 입증합니다. 첫째, 지난 5년 동안 Movielens 10M 벤치마크에 대해 사용된 많은 기준선들의 결과가 최적화되지 않았음을 보여드립니다. 일반적인 행렬 분해 기준선을 세심하게 설정함으로써, 우리는 이 기준선에 대한 보고된 결과를 개선할 뿐만 아니라 어떤 새로운 방법론의 보고된 결과보다도 우수한 성능을 내는 것을 확인하였습니다. 둘째, 커뮤니티가 Netflix Prize에서 간단한 방법들에 대해 고품질의 결과를 얻기 위해 얼마나 많은 노력이 필요했는지를 재검토합니다. 우리의 결과는 표준화된 벤치마크에서 연구 커뮤니티가 기준선을 충분히 조정하지 않은 경우 연구 논문에서 제시된 경험적 발견들이 의심스럽다는 것을 시사합니다.