HyperAIHyperAI

Command Palette

Search for a command to run...

مُحَوِّل الانتباه البصري

Nian Liu Ni Zhang Kaiyuan Wan Ling Shao Junwei Han

الملخص

تستند الطرق الحالية الرائدة في الكشف عن الاهتمام البصري بشكل كبير على الهياكل القائمة على الشبكات العصبية التلافيفية (CNN). كخيار بديل، نعيد التفكير في هذه المهمة من منظور تسلسلي تسلسلي خالٍ من التلافيف، ونُقدّر الاهتمام من خلال نمذجة الاعتماديات طويلة المدى، والتي لا يمكن تحقيقها من خلال التلافيف. بشكل محدد، نطوّر نموذجًا موحدًا جديدًا مستندًا إلى مُحول نقي (Transformer)، يُسمى "مُحول الاهتمام البصري" (Visual Saliency Transformer - VST)، للكشف عن الكائنات المميزة في الصور RGB وRGB-D. يستخدم النموذج قطع الصور كمدخلات، ويستفيد من مُحول الترجمة لنقل السياقات العالمية بين قطع الصور. وعلى عكس الهياكل التقليدية المستخدمة في مُحول الرؤية (Vision Transformer - ViT)، نستخدم دمجًا متعدد المستويات للرموز (tokens)، ونُقدّم طريقة جديدة لترقية الرموز ضمن إطار مُحول الترجمة، للحصول على نتائج كشف عالية الدقة. كما نطوّر أيضًا مُفككًا متعدد المهام قائمًا على الرموز، والذي يؤدي بشكل متزامن كشف الاهتمام وتحديد الحدود، من خلال إدخال رموز مرتبطة بالمهمة وآلية انتباه جديدة تُسمى "الانتباه المقطع-المهمة" (patch-task-attention). تُظهر النتائج التجريبية أن نموذجنا يتفوق على الطرق الحالية في مجموعتي بيانات معايير الكشف عن الكائنات المميزة (SOD) لكل من الصور RGB وRGB-D. والأهم من ذلك، أن الإطار الكلي الذي نقدّمه لا يقدّم منظورًا جديدًا لحقل الكشف عن الاهتمام البصري فحسب، بل يُظهر أيضًا نموذجًا جديدًا للنماذج القائمة على مُحول الترجمة للتنبؤ الكثيف (dense prediction). يمكن الوصول إلى الكود عبر الرابط: https://github.com/nnizhang/VST.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp