Collaborative Filtering을 위한 Amortized Ranking-Critical Training 방향성 연구

협업 필터링은 현대 추천 시스템에서 널리 사용되고 있습니다. 최근 연구에 따르면, 변분 오토인코더(VAEs)는 깊은 신경망에서 유연한 표현을 잠재 변수 모델에 통합함으로써 전통적인 선형 요인 모델의 한계를 완화시키며, 최고 수준의 성능을 발휘합니다. VAEs는 일반적으로 사용자와 실제 아이템 간의 상호작용 가능성을 최대화하는 방법(최대우도추정, MLE)으로 훈련됩니다. 이 방법은 단순하고 종종 효과적이지만, MLE 기반 훈련은 top-N 순위 등 우리가 주로 관심을 갖는 추천 품질 지표를 직접 최적화하지 않습니다. 본 논문에서는 이러한 문제를 해결하기 위해, 액터-크리틱 강화 학습 기법을 기반으로 하는 새로운 협업 필터링 모델 훈련 방법을 탐구합니다. 이를 통해 비미분 가능한 흥미로운 품질 지표를 직접 최적화할 수 있습니다. 구체적으로, 크리틱 네트워크를 순위 기반 지표를 근사하도록 훈련시키고, 그 다음 액터 네트워크(여기서는 VAE로 표현됨)를 학습된 지표에 대해 직접 최적화하도록 업데이트합니다. 전통적인 학습-순위 결정 방법과 달리, 우리의 크리틱 기반 방법은 새로운 목록에 대해 최적화 절차를 다시 실행할 필요가 없으며, 신경망을 통해 점수 부여 과정을 분산 처리하여 새로운 목록에 대한 (근사) 순위 점수를 직접 제공할 수 있습니다. 실험 결과 및 그래프 플롯을 재현하기 위한 코드는 Github에서 확인할 수 있습니다: https://github.com/samlobel/RaCT_CF이 논문에서는 제안된 방법이 세 가지 대규모 실세계 데이터셋에서 최근 제안된 딥러닝 접근 방식을 포함한 여러 최신 베이스라인보다 우수한 성능을 보임을 경험적으로 입증하였습니다.