الملخص: توحيد البارزة من خلال مامبا لنمذجة الانتباه البصري

نمذجة الانتباه البصري، وهي مهمة مهمة لفهم وتقييم المنبهات البصرية، تلعب دورًا مهمًا في التطبيقات مثل التسويق والوسائط المتعددة والروبوتات. حققت النماذج التقليدية للتنبؤ بالبروز، وخاصة تلك المستندة إلى شبكات العصبونات المتشابكة (CNNs) أو المتحولات (Transformers)، نجاحًا ملحوظًا من خلال الاستفادة من قواعد بيانات مُشَرَّحة على نطاق واسع. ومع ذلك، فإن النماذج الرائدة حاليًا التي تستخدم المتحولات (Transformers) تكون باهظة الحساب. بالإضافة إلى ذلك، غالبًا ما تتطلب نماذج منفصلة لكل نوع صورة، مما يفتقر إلى نهج موحد. في هذا البحث، نقترح "توحيد البروز عبر مامبا" (Saliency Unification through Mamba - SUM)، وهو نهج جديد يدمج بين كفاءة نمذجة الارتباطات طويلة المدى لمامبا وشبكة U-Net لتوفير نموذج موحد لأنواع الصور المختلفة. باستخدام كتلة الحالة البصرية الشرطية الجديدة (C-VSS)، يتم تكيف SUM ديناميكيًا مع أنواع الصور المختلفة، بما في ذلك المشاهد الطبيعية وصفحات الويب والصور التجارية، مما يضمن قابلية التطبيق الشاملة عبر أنواع البيانات المختلفة. أظهرت تقييماتنا الشاملة عبر خمس مقاييس أن SUM يتكيّف بسلاسة مع الخصائص البصرية المختلفة ويتفوق باستمرار على النماذج الموجودة. هذه النتائج تضع SUM كأداة متعددة الاستخدامات وقوية لتطوير نمذجة الانتباه البصري، وتقدم حلًّا قويًّا قابلًا للتطبيق بشكل شامل على أنواع مختلفة من المحتوى البصري.