HyperAIHyperAI
il y a 2 mois

Ducho rencontre Elliot : Études de grande échelle pour les recommandations multimodales

Matteo Attimonelli; Danilo Danese; Angela Di Fazio; Daniele Malitesta; Claudio Pomo; Tommaso Di Noia
Ducho rencontre Elliot : Études de grande échelle pour les recommandations multimodales
Résumé

Dans des domaines spécifiques tels que la mode, la musique et les recommandations de films, les caractéristiques multifacettes des produits et services peuvent influencer chaque client sur les plateformes de vente en ligne de manière différente, ouvrant ainsi la voie à de nouveaux modèles de recommandation multimodaux capables d'apprendre à partir de ce contenu multimodal. Selon la littérature, le pipeline commun pour la recommandation multimodale implique (i) l'extraction de caractéristiques multimodales, (ii) l'affinement de leurs représentations de haut niveau pour s'adapter à la tâche de recommandation, (iii) éventuellement la fusion de toutes les caractéristiques multimodales, et (iv) la prédiction du score utilisateur-élément. Bien que beaucoup d'efforts aient été consacrés à la conception de solutions optimales pour les étapes (ii-iv), il semble que très peu d'attention ait été portée à l'exploration des procédures pour l'étape (i). À cet égard, la littérature existante souligne la grande disponibilité des jeux de données multimodaux et le nombre croissant de grands modèles prenant en compte les tâches multimodales, mais adopte simultanément des solutions standardisées limitées et non justifiées. Cela motive notre exploration de techniques plus approfondies pour l'étape (i) du pipeline. Dans cette optique, cet article constitue une première tentative pour offrir un benchmark à grande échelle pour les systèmes de recommandation multimodaux, avec un accent particulier sur les extracteurs multimodaux. Plus précisément, nous utilisons deux cadres populaires et récents pour l'extraction de caractéristiques multimodales et la reproductibilité dans la recommandation, Ducho et Elliot, afin d'offrir un environnement expérimental unifié et prêt à l'emploi capable d'exécuter des analyses de benchmarking exhaustives en utilisant des extracteurs novateurs de caractéristiques multimodales. Les résultats, largement validés sous différents paramètres hyperparamétriques pour les extracteurs choisis, fournissent des informations importantes sur la façon dont on peut entraîner et ajuster la prochaine génération d'algorithmes de recommandation multimodale.