تدريب ستودنت المزعج باستخدام مجموعة بيانات لغة الجسد يُحسّن التعرف على التعبيرات الوجهية

إن تقدير تعبيرات الوجه من مقاطع الفيديو في البيئات الطبيعية (in the wild) يُعد مهمة صعبة نظرًا لقلة البيانات التدريبية المُعلمة بكثرة. وقد أدت الهياكل الكبيرة لشبكات التعلم العميق (DNN) والأساليب المتعددة (ensemble methods) إلى تحسين الأداء، لكنها تصل بسرعة إلى حالة التشبع في مرحلة ما بسبب نقص البيانات. في هذه الورقة، نستخدم طريقة التدريب الذاتي التي تعتمد على دمج مجموعة بيانات مُعلمة ومجموعة بيانات غير مُعلمة (مجموعة بيانات السلوك الجسدي - BoLD). تُظهر التحليلات التجريبية أن تدريب شبكة طالب "مُشوشة" بشكل تكراري يُسهم بشكل كبير في تحقيق نتائج أفضل. علاوةً على ذلك، يُعزل نموذجنا مناطق مختلفة من الوجه ويُعالجها بشكل مستقل باستخدام آلية انتباه متعددة المستويات، مما يعزز الأداء بشكل إضافي. تُظهر النتائج أن الطريقة المقترحة تحقق أداءً من الدرجة الأولى (state-of-the-art) على مجموعتي بيانات معيارية (benchmark datasets) CK+ وAFEW 8.0 مقارنةً بالنماذج الفردية الأخرى.