HyperAIHyperAI
منذ 17 أيام

الانتباه الذاتي متعدد الرؤوس القنواتي المحلي للتعرف على التعبيرات الوجهية

Roberto Pecoraro, Valerio Basile, Viviana Bono, Sara Gallo
الانتباه الذاتي متعدد الرؤوس القنواتي المحلي للتعرف على التعبيرات الوجهية
الملخص

منذ ظهور معمارية Transformer في عام 2017، شهد المجال حاولت عديدة لدمج مفهوم الانتباه الذاتي في مجال الرؤية الحاسوبية. في هذه الورقة، نقترح وحدة انتباه ذاتي جديدة يمكن دمجها بسهولة في أي شبكة عصبية تلافيفية تقريبًا، ومصممة خصيصًا للرؤية الحاسوبية، وتعمل باسم LHC: انتباه قنوات (متعدد الرؤوس) محلي (Local (multi) Head Channel (self-attention)). تعتمد LHC على فكرتين رئيسيتين: أولاً، نعتقد أن أفضل طريقة لاستغلال مفهوم الانتباه الذاتي في الرؤية الحاسوبية هي التطبيق القنوي (channel-wise) بدلًا من الانتباه المكاني الذي تم استكشافه بشكل أكبر، وأن التلافيف لن يُستبدل بوحدات الانتباه كما حدث مع الشبكات المتكررة في معالجة اللغة الطبيعية؛ ثانيًا، فإن النهج المحلي يمتلك القدرة على التغلب بشكل أفضل على القيود المفروضة على التلافيف مقارنةً بالانتباه العالمي. وباستخدام LHC-Net، تمكنّا من تحقيق حالة جديدة من أفضل الأداء (SOTA) على مجموعة البيانات الشهيرة FER2013، مع تعقيد أقل بشكل ملحوظ، وتأثير محدود على البنية الأساسية (الـ"host" architecture) من حيث التكلفة الحسابية مقارنةً بالحلول السابقة التي كانت تحتل مركز الصدارة.

الانتباه الذاتي متعدد الرؤوس القنواتي المحلي للتعرف على التعبيرات الوجهية | أحدث الأوراق البحثية | HyperAI