التشتت الانتباه: شبكة الانتباه المتقاطع متعدد الرؤوس للتعرف على التعبيرات الوجهية

نقدم شبكة جديدة لتحديد تعابير الوجه تُسمى شبكة تشتيت الانتباه (Distract your Attention Network - DAN). تعتمد طريقة عملنا على ملاحظتين رئيسيتين. أولاً، فإن عدة فئات تشترك في ظهور وجهي مشترك في الأساس، وقد تكون الفروق بينها خفية للغاية. ثانيًا، تظهر تعابير الوجه من خلال مناطق متعددة في الوجه في نفس الوقت، وبالتالي يتطلب التعرف عليها نهجًا شاملاً من خلال ترميز التفاعلات ذات الدرجة العالية بين الميزات المحلية. لمعالجة هذه التحديات، نقترح شبكة DAN التي تتألف من ثلاث مكونات رئيسية: شبكة تجميع الميزات (Feature Clustering Network - FCN)، وشبكة الانتباه متعدد الرؤوس (Multi-head cross Attention Network - MAN)، وشبكة دمج الانتباه (Attention Fusion Network - AFN). تقوم شبكة FCN باستخراج ميزات قوية من خلال اعتماد هدف تعلم بمسافة كبيرة (large-margin learning objective) لتعزيز فصل الفئات. علاوة على ذلك، تقوم شبكة MAN بتنفيذ عدد من رؤوس الانتباه لتمكين الانتباه المتزامن لمنطقة وجه متعددة وبناء خرائط انتباه على هذه المناطق. كما تقوم شبكة AFN بتشتيت هذه الانتباهات إلى مواقع متعددة قبل دمج خرائط الانتباه إلى خريطة شاملة واحدة. وقد أكدت تجارب واسعة على ثلاث مجموعات بيانات عامة (بما في ذلك AffectNet وRAF-DB وSFEW 2.0) أن الطريقة المقترحة تحقق أداءً متميزًا في التعرف على تعابير الوجه مقارنة بأفضل الطرق الحالية. وسيتم نشر الكود على الرابط: https://github.com/yaoing/DAN.