استخدام المهام المساعدة ذاتية التعلّم لتحسين التمثيل الوجهي الدقيق

في هذه الورقة، نبدأ أولاً بدراسة تأثير التدريب المسبق باستخدام ImageNet على التعرف الدقيق على المشاعر الوجهية (FER)، حيث تُظهر النتائج أن استخدام كميات كافية من التحويلات (augmentations) على الصور يؤدي إلى تفوق التدريب من الصفر على التدريب المخصص (fine-tuning) باستخدام التدريب المسبق على ImageNet. ثم نقترح طريقة لتحسين التعرف الدقيق على المشاعر الوجهية في البيئات الطبيعية (in-the-wild FER)، تُسمى التعلم المتعدد المهام الهجين (Hybrid Multi-Task Learning - HMTL). تعتمد HMTL على استخدام التعلم ذاتي التوجيه (Self-Supervised Learning - SSL) كمهمة مساعدة خلال التعلم المراقب الكلاسيكي (Supervised Learning - SL) على شكل تعلم متعدد المهام (Multi-Task Learning - MTL). وعند استخدام SSL أثناء التدريب، يمكن استخلاص معلومات إضافية من الصور لصالح المهمة الأساسية، وهي التعلم المراقب الدقيق. قمنا بدراسة كيفية تطبيق HMTL في مجال FER من خلال تصميم نسختين مخصصتين من تقنيات المهام الوهمية الشائعة، وهي "تجميع القطع" (puzzling) و"إعادة التعبئة" (in-painting). وقد تحقق أداءً متفوقًا على معيار AffectNet باستخدام نوعين من HMTL، دون الحاجة إلى التدريب المسبق على بيانات إضافية. تُظهر النتائج التجريبية المقارنة بين التدريب المسبق الشائع باستخدام SSL والطريقة المقترحة HMTL الفرق والتفوق في الأداء الذي تحققه هذه الدراسة. ومع ذلك، لا تقتصر HMTL على مجال FER فقط. وقد أظهرت التجارب على نوعين من المهام الدقيقة للوجه، وهي تقدير اتجاه الرأس (head pose estimation) والتمييز بين الجنس (gender recognition)، إمكانية استخدام HMTL لتحسين التمثيل الدقيق للوجه.