التعلم العميق للمنطقة والتعلم متعدد التسميات للكشف عن وحدات العمل الوجهية

لقد لاقت التعلم الإقليمي (RL) والتعلم متعدد التسميات (ML) اهتمامًا متزايدًا في مجال كشف وحدات التعبير الوجهية (AU). ونظرًا لأن وحدات التعبير تنشط في مناطق وجهية نادرة، يهدف التعلم الإقليمي إلى تحديد هذه المناطق لتحقيق تخصيص أفضل. من ناحية أخرى، تشير الأدلة الإحصائية القوية إلى وجود ارتباطات بين وحدات التعبير، مما يجعل التعلم متعدد التسميات طريقة طبيعية لنموذج مهمة الكشف. في هذا البحث، نقترح شبكة عميقة موحدة تُسمى التعلم العميق الإقليمي والمتعدد التسميات (DRML)، والتي تعالج هذين المشكلين بشكل متزامن. يُعد أحد الجوانب الأساسية في DRML طبقة إقليمية جديدة تستخدم دوالًا تقدمية (feed-forward) لاستخلاص المناطق الوجهية المهمة، مما يُجبر الأوزان المُتعلمة على اكتساب معلومات هيكلية حول الوجه. تُشكّل طبقة المنطقة هذه بديلاً تصميميًا بين الطبقات المتصلة محليًا (أي أن النوى محدودة لكل بكسل على حدة) والطبقات التلافيفية التقليدية (أي أن النوى مشتركة عبر الصورة بأكملها). على عكس الدراسات السابقة التي تعالج RL وML بشكل متسلسل، فإن DRML، بتصميمها، تعالج كلا المشكلين معًا، مما يسمح لهما، رغم تناقضهما الظاهري، بالتفاعل بشكل مباشر أكثر. تُعد الشبكة الكاملة قابلة للتدريب من النهاية إلى النهاية، وتعلّم تمثيلات تلقائيًا مقاومة للتغيرات المتأصلة داخل المناطق المحلية. أظهرت التجارب على معايير BP4D وDISFA أن DRML تحقق أعلى متوسط دقة F1 وأعلى قيمة AUC داخل البيانات وعبرها مقارنةً بالطرق البديلة.