Attrahiert Text die Aufmerksamkeit auf E-Commerce-Bildern? Ein neuartiges Saliency-Vorhersagedatensatz- und -verfahren

E-Commerce-Bilder spielen eine zentrale Rolle bei der Aufmerksamkeitsgewinnung im Online-Handel und der Online-Einkaufswelt, und eine präzise Aufmerksamkeitsvorhersage ist sowohl für Kunden als auch für Händler von erheblicher Bedeutung – wobei die Forschung auf diesem Gebiet bisher noch nicht begonnen hat. In diesem Artikel stellen wir erstmals den Datensatz „Saliency E-Commerce Images (SalECI)“ vor, der die Lernbarkeit zur Vorhersage von Aufmerksamkeitsmuster in E-Commerce-Bildern ermöglicht. Anschließend führen wir eine spezialisierte und umfassende Analyse durch, wobei wir die charakteristischen Merkmale von E-Commerce-Bildern herausstellen, wie beispielsweise die Nichtlokalität und die Korrelation zu textbasierten Regionen. Dementsprechend nutzen wir die Vorteile der Nichtlokalität und der Selbst-Attention-Mechanismen, um einen auffälligen SWin-Transformer-Backbone vorzuschlagen, gefolgt von einem Multi-Task-Lernansatz mit Aufmerksamkeits- und Texterkennungsköpfen. Dabei wird ein Informationsflussmechanismus vorgeschlagen, der beide Aufgaben zusätzlich unterstützt. Experimentelle Ergebnisse bestätigen die state-of-the-art-Leistungsfähigkeit unseres Ansatzes im E-Commerce-Kontext.