Transformers mit multimodalen Merkmalen und Post-Fusion-Kontext für die Empfehlung basierend auf E-Commerce-Sitzungen

Session-basierte Empfehlungen sind eine zentrale Aufgabe für E-Commerce-Dienste, bei denen eine große Anzahl von Nutzern anonym surft oder für unterschiedliche Sitzungen sehr unterschiedliche Interessen aufweist. In diesem Paper präsentieren wir eine der Gewinnerlösungen für die Empfehlungsaufgabe des SIGIR 2021 Workshops zum E-Commerce Data Challenge. Unsere Lösung wurde durch Techniken aus dem Bereich der natürlichen Sprachverarbeitung (NLP) inspiriert und basiert auf einem Ensemble zweier Transformer-Architekturen – Transformer-XL und XLNet –, die mit autoregressiven und autoencoding Ansätzen trainiert wurden. Um das reichhaltige Datenset, das für die Herausforderung bereitgestellt wurde, möglichst vollständig auszunutzen, beschreiben wir, wie wir multi-modale Merkmale durch Kombination tabellarischer Ereignisse mit textuellen und bildbasierten Vektoren erstellt haben. Zudem präsentieren wir eine Analyse der Modellvorhersagen, um die Wirksamkeit unserer Architekturen für die session-basierte Empfehlung besser zu verstehen.