HyperAIHyperAI
منذ 17 أيام

إlsa: انتباه ذاتي محلي محسّن لنموذج التحويل البصري

Jingkai Zhou, Pichao Wang, Fan Wang, Qiong Liu, Hao Li, Rong Jin
إlsa: انتباه ذاتي محلي محسّن لنموذج التحويل البصري
الملخص

الانتباه الذاتي قوي في نمذجة الاعتمادات على المدى الطويل، لكنه ضعيف في تعلم الميزات الدقيقة على المستوى المحلي. أداء الانتباه الذاتي المحلي (LSA) يساوي تقريبًا أداء التصفية الثابتة (convolution)، ويتفوق عليه الانتباه الديناميكي، مما يُربك الباحثين حول ما إذا كان ينبغي استخدام LSA أو بديلاته، أيهما أفضل، وما الذي يجعل LSA متوسط الأداء. ولتوضيح هذه المسائل، نقوم بدراسة شاملة لـ LSA وبديلاته من جانبين: \emph{إعداد القنوات} و\emph{المعالجة المكانية}. نجد أن المشكلة تكمن في توليد وتطبيق الانتباه المكاني، حيث تُعد التضمينات المكانية النسبية وتطبيق الفلاتر المجاورة عوامل حاسمة. استنادًا إلى هذه النتائج، نقترح نموذج الانتباه الذاتي المحلي المُحسّن (ELSA) الذي يعتمد على الانتباه الهاداماردي (Hadamard attention) والرأس الشبحي (ghost head). يُدخل الانتباه الهاداماردي عملية الضرب الهاداماردي لتوليد الانتباه بكفاءة في الحالات المجاورة، مع الحفاظ على القدرة على التمثيل من الدرجة العليا. أما الرأس الشبحي فيجمع خرائط الانتباه مع مصفوفات ثابتة لزيادة سعة القنوات. تُظهر التجارب فعالية ELSA: دون أي تعديل على البنية أو المعلمات، يُحسّن استبدال LSA بـ ELSA بشكل مباشر أداء نموذج Swin Transformer \cite{swin} بنسبة تصل إلى +1.4 في دقة الدرجة الأولى. كما يُحسّن ELSA باستمرار أداء VOLO \cite{volo} من النموذج D1 إلى D5، حيث يحقق نموذج ELSA-VOLO-D5 دقة 87.2 على ImageNet-1K دون الحاجة إلى صور تدريب إضافية. علاوة على ذلك، قمنا بتقييم ELSA في مهام تطبيقية لاحقة، حيث يُحسّن الأداء الأساسي بنسبة تصل إلى +1.9 في مقياس box Ap و+1.3 في مقياس mask Ap على COCO، وبنسبة +1.9 في مقياس mIoU على ADE20K. يمكن الوصول إلى الكود عبر الرابط: \url{https://github.com/damo-cv/ELSA}.

إlsa: انتباه ذاتي محلي محسّن لنموذج التحويل البصري | أحدث الأوراق البحثية | HyperAI