Ducho trifft Elliot: Große Benchmark-Datensätze für multimodale Empfehlungen

In bestimmten Bereichen wie Mode, Musik und Filmempfehlungen können die vielfältigen Merkmale, die Produkte und Dienstleistungen charakterisieren, unterschiedliche Einflüsse auf jeden Kunden auf Online-Verkaufsplattformen haben. Dies eröffnet den Weg zu neuen multimodalen Empfehlungsmodellen, die aus solchem multimodalem Inhalt lernen können. Laut der Literatur umfasst der übliche multimodale Empfehlungsprozess (i) das Extrahieren multimodaler Merkmale, (ii) das Verfeinern ihrer hochwertigen Darstellungen für die Empfehlungsaufgabe, (iii) optional das Führen aller multimodalen Merkmale zusammen und (iv) die Vorhersage des Nutzer-Produkt-Scores. Obwohl große Anstrengungen unternommen wurden, um optimale Lösungen für Schritte (ii-iv) zu entwickeln, wurde nach bestem Wissen bisher sehr wenig Aufmerksamkeit dem Explorieren von Verfahren für Schritt (i) gewidmet. In diesem Zusammenhang zeigt die vorhandene Literatur die große Verfügbarkeit multimodaler Datensätze und die ständig wachsende Anzahl großer Modelle, die multimodale Aufgaben berücksichtigen, aber gleichzeitig eine unberechtigte Nutzung begrenzter standardisierter Lösungen. Dies motiviert uns, umfassendere Techniken für den Schritt (i) des Prozesses zu erforschen. Zu diesem Zweck stellt diese Arbeit als erster Versuch eine groß angelegte Benchmarking-Methode für multimodale Empfehlungssysteme vor, mit besonderem Fokus auf multimodale Extraktoren. Insbesondere nutzen wir zwei populäre und moderne Frameworks zur Extraktion multimodaler Merkmale und zur Reproduzierbarkeit in der Empfehlung, nämlich Ducho und Elliot, um eine einheitliche und direkt nutzbare experimentelle Umgebung bereitzustellen, die es ermöglicht, umfangreiche Benchmark-Analysen unter Verwendung neuerer multimodal kompatibler Merkmalsextraktoren durchzuführen. Die Ergebnisse, weitgehend unter verschiedenen Hyperparameter-Einstellungen für die gewählten Extraktoren validiert, liefern wichtige Erkenntnisse darüber, wie man die nächste Generation von multimodalen Empfehlungsalgorithmen trainiert und justiert.