هل النص يجذب الانتباه في الصور الإلكترونية؟: مجموعة بيانات وطريقة جديدة لتنبؤ الانتباه البصري

تلعب الصور الإلكترونية في مجال التجارة الإلكترونية دورًا محوريًا في جذب انتباه المستخدمين أثناء التسوق عبر الإنترنت، كما أن التنبؤ الدقيق بالانتباه يُعد أمرًا ذا أهمية كبيرة لكل من العملاء والتجار، رغم أن أبحاث هذا المجال ما زالت في مراحلها الأولى. في هذه الورقة البحثية، نُنشئ أول مجموعة بيانات مخصصة للصور التجارية ذات الانتباه المميز (SalECI)، والتي تتيح التعلّم لتنبؤ الانتباه على الصور التجارية. ثم نُجري تحليلًا متخصصًا وشاملًا، مع تسليط الضوء على الخصائص الفريدة للصور التجارية، مثل عدم المحلية (non-locality) والارتباط بالمناطق النصية. وباستغلال ميكانيزمات عدم المحلية والانتباه الذاتي (self-attention)، نقترح بنية أساسية مبتكرة تُسمى SWin-Transformer المميز (salient SWin-Transformer)، تليها تعلم متعدد المهام يشمل كلاً من كشف الانتباه وكشف النصوص، مع اقتراح آلية تدفق المعلومات لتعزيز كلا المهمتين بشكل متبادل. وقد أكدت النتائج التجريبية أداءً متميزًا على مستوى التقنيات الحالية في السياق التجاري الإلكتروني.