Les Textes attirent-ils l’attention sur les images commerciales en ligne ? Un nouveau jeu de données et une méthode de prédiction de saillance

Les images commerciales en ligne jouent un rôle central dans l’attirance de l’attention des utilisateurs lors des achats en ligne, et une prédiction précise de cette attention revêt une importance majeure tant pour les consommateurs que pour les détaillants, bien que cette recherche soit encore à ses débuts. Dans cet article, nous introduisons le premier jeu de données dédié aux images e-commerce à fort impact visuel (SalECI), permettant d’apprendre à prédire la salience sur les images e-commerce. Nous menons ensuite une analyse spécialisée et approfondie, en mettant en évidence les caractéristiques distinctes de ces images, telles que la non-localité et la corrélation avec les régions textuelles. En exploitant les mécanismes de non-localité et d’attention auto-associative, nous proposons un modèle principal basé sur le SWin-Transformer pour la détection de salience, suivi d’un apprentissage multi-tâches comprenant des têtes de prédiction de salience et de détection de texte. Un mécanisme de flux d’information est également introduit afin d’améliorer les performances des deux tâches. Les résultats expérimentaux confirment les performances de pointe de notre approche dans le contexte e-commerce.