BERT4Rec: Sequentielle Empfehlung mit bidirektionalen Encoder-Repräsentationen aus dem Transformer

Das Modellieren dynamischer und sich entwickelnder Benutzervorlieben anhand ihrer historischen Verhaltensweisen ist eine herausfordernde und entscheidende Aufgabe für Empfehlungssysteme. Frühere Methoden verwenden sequentielle neuronale Netze (z.B. Rekurrentes Neuronales Netz) zur Kodierung der historischen Interaktionen der Benutzer von links nach rechts in verborgene Darstellungen, um Empfehlungen zu erstellen. Obwohl diese Methoden zufriedenstellende Ergebnisse erzielen, gehen sie oft von einer starr geordneten Sequenz aus, was in der Praxis nicht immer zutrifft. Wir argumentieren, dass solche unidirektionalen Architekturen von links nach rechts die Leistungsfähigkeit der historischen Sequenzdarstellungen einschränken. Aus diesem Grund stellen wir ein bidirektionales Encoder-Modell basierend auf Transformers für sequentielle Empfehlungen vor (BERT4Rec). Die gemeinsame Berücksichtigung sowohl des linken als auch des rechten Kontexts in einem tiefgreifenden bidirektionalen Modell würde jedoch das Training trivial machen, da jedes Element indirekt das „Zielobjekt“ sehen könnte. Um dieses Problem zu lösen, trainieren wir das bidirektionale Modell mit Hilfe der Cloze-Aufgabe, bei der die maskierten Elemente in der Sequenz durch die gemeinsame Berücksichtigung ihres linken und rechten Kontexts vorhergesagt werden. Im Vergleich zum Vorhersagen des nächsten Elements an jeder Position in einer Sequenz kann die Cloze-Aufgabe mehr Trainingsbeispiele generieren, um ein leistungsstärkeres bidirektionales Modell zu trainieren. Ausführliche Experimente mit vier Benchmark-Datensätzen zeigen, dass unser Modell konsistent bessere Ergebnisse als verschiedene state-of-the-art sequentielle Modelle erzielt.