Zu amortisierter ranking-kritischer Trainierung für kollaboratives Filtern

Kollaboratives Filtern wird in modernen Empfehlungssystemen weit verbreitet eingesetzt. Aktuelle Forschungen zeigen, dass variationelle Autoencoder (VAEs) durch die Integration flexibler Repräsentationen aus tiefen neuronalen Netzen in latente Variablenmodelle den Stand der Technik erreichen und damit die Einschränkungen traditioneller linearer Faktormodelle mildern. VAEs werden in der Regel durch die Maximierung der Wahrscheinlichkeit (Maximum Likelihood Estimation, MLE) von Nutzerinteraktionen mit tatsächlichen Elementen trainiert. Obwohl diese Methode einfach und oft effektiv ist, maximiert sie nicht direkt die für Empfehlungsqualität relevanten Metriken wie z.B. das Top-N-Ranking. In dieser Arbeit untersuchen wir neue Methoden zur Schulung kollaborativer Filterungsmodelle auf Basis des Schauspieler-Kritiker-Reinforcement-Learnings, um die nicht differenzierbaren Qualitätsmetriken direkt zu optimieren. Insbesondere trainieren wir ein Kritiker-Netzwerk, um Rangfolgen-basierte Metriken zu approximieren, und aktualisieren dann das Schauspieler-Netzwerk (hier durch einen VAE repräsentiert), um direkt gegen die gelernten Metriken zu optimieren. Im Gegensatz zu traditionellen Lernen-zum-Rangfolgen-Methoden, die eine erneute Durchführung des Optimierungsverfahrens für neue Listen erfordern, amortisiert unsere kritikerbasierte Methode den Bewertungsprozess mit einem neuronalen Netzwerk und kann direkt (approximierte) Rangfolgebewertungen für neue Listen bereitstellen. Empirisch zeigen wir, dass die vorgeschlagenen Methoden mehrere StandesderTechnik-Baselines übertreffen, darunter neu vorgeschlagene Deep-Learning-Ansätze, anhand dreier groß angelegter realweltlicher Datensätze. Der Code zur Reproduktion der experimentellen Ergebnisse und Diagramme ist auf Github verfügbar: https://github.com/samlobel/RaCT_CF