HyperAIHyperAI
منذ 11 أيام

مُحَوِّل الانتباه البصري

Nian Liu, Ni Zhang, Kaiyuan Wan, Ling Shao, Junwei Han
مُحَوِّل الانتباه البصري
الملخص

تستند الطرق الحالية الرائدة في الكشف عن الاهتمام البصري بشكل كبير على الهياكل القائمة على الشبكات العصبية التلافيفية (CNN). كخيار بديل، نعيد التفكير في هذه المهمة من منظور تسلسلي تسلسلي خالٍ من التلافيف، ونُقدّر الاهتمام من خلال نمذجة الاعتماديات طويلة المدى، والتي لا يمكن تحقيقها من خلال التلافيف. بشكل محدد، نطوّر نموذجًا موحدًا جديدًا مستندًا إلى مُحول نقي (Transformer)، يُسمى "مُحول الاهتمام البصري" (Visual Saliency Transformer - VST)، للكشف عن الكائنات المميزة في الصور RGB وRGB-D. يستخدم النموذج قطع الصور كمدخلات، ويستفيد من مُحول الترجمة لنقل السياقات العالمية بين قطع الصور. وعلى عكس الهياكل التقليدية المستخدمة في مُحول الرؤية (Vision Transformer - ViT)، نستخدم دمجًا متعدد المستويات للرموز (tokens)، ونُقدّم طريقة جديدة لترقية الرموز ضمن إطار مُحول الترجمة، للحصول على نتائج كشف عالية الدقة. كما نطوّر أيضًا مُفككًا متعدد المهام قائمًا على الرموز، والذي يؤدي بشكل متزامن كشف الاهتمام وتحديد الحدود، من خلال إدخال رموز مرتبطة بالمهمة وآلية انتباه جديدة تُسمى "الانتباه المقطع-المهمة" (patch-task-attention). تُظهر النتائج التجريبية أن نموذجنا يتفوق على الطرق الحالية في مجموعتي بيانات معايير الكشف عن الكائنات المميزة (SOD) لكل من الصور RGB وRGB-D. والأهم من ذلك، أن الإطار الكلي الذي نقدّمه لا يقدّم منظورًا جديدًا لحقل الكشف عن الاهتمام البصري فحسب، بل يُظهر أيضًا نموذجًا جديدًا للنماذج القائمة على مُحول الترجمة للتنبؤ الكثيف (dense prediction). يمكن الوصول إلى الكود عبر الرابط: https://github.com/nnizhang/VST.

مُحَوِّل الانتباه البصري | أحدث الأوراق البحثية | HyperAI