من الثابت إلى الديناميكي: تكييف نماذج الصور المعتمدة على المعالم لتقدير تعبيرات الوجه في الفيديوهات

تمحور التعرف على التعبيرات الوجهية الديناميكية (DFER) في البيئات الطبيعية (in the wild) حتى الآن على قيود البيانات، مثل نقص الكمية والتنوع في الزوايا، والانسداد، والإضاءة، فضلاً عن الغموض المتأصّل في التعبيرات الوجهية. في المقابل، يُظهر التعرف على التعبيرات الوجهية الثابتة (SFER) حاليًا أداءً أعلى بكثير، ويمكنه الاستفادة من كميات أكبر من بيانات التدريب عالية الجودة. علاوةً على ذلك، لا تزال السمات البصرية والاعتماديات الديناميكية في DFER موضوعًا غير مستكشف بالكامل. ولحل هذه التحديات، نقدّم نموذجًا جديدًا يُسمى Static-to-Dynamic (S2D)، الذي يستفيد من المعرفة المتاحة في مجال SFER، والمعلومات الديناميكية المُشفرة ضمنًا في السمات المستخلصة من نقاط الوجه المُوجّهة (landmark-aware features)، مما يؤدي إلى تحسين كبير في أداء DFER. أولاً، نُنشئ ونُدرّب نموذجًا صوتيًا لـ SFER، يحتوي فقط على نموذج Vision Transformer (ViT) القياسي وعوامل مُكمّلة متعددة الزوايا (MCPs). ثم، نحصل على نموذج الفيديو (أي S2D) المُخصص للتعرف على التعبيرات الوجهية الديناميكية عبر إدراج عوامل تشكيل الزمن (Temporal-Modeling Adapters - TMAs) داخل النموذج الصوتي. تعزز MCPs السمات الخاصة بالتعبيرات الوجهية من خلال سمات مُوجّهة بنقاط الوجه المستخلصة بواسطة مُكتشف نقاط الوجه الجاهز (off-the-shelf facial landmark detector). في الوقت نفسه، تقوم TMAs بتمثيل وتحليل العلاقات بين التغيرات الديناميكية في التعبيرات الوجهية، مما يمكّن من توسيع نطاق النموذج الصوتي المُدرّب سابقًا ليُستخدم في الفيديو. ويُذكر أن MCPs وTMAs تزيد فقط بنسبة طفيفة من عدد المعلمات القابلة للتدريب (أقل من +10%) مقارنة بالنموذج الأصلي. علاوةً على ذلك، نقدّم خسارة جديدة تُسمى Self-Distillation Loss تعتمد على "مراجع عاطفية" (Emotion-Anchors)، وهي عينات مرجعية لكل فئة من الفئات العاطفية، بهدف تقليل التأثير السلبي الناتج عن التسميات العاطفية الغامضة، مما يعزز أداء نموذج S2D بشكل إضافي. أظهرت التجارب التي أُجريت على مجموعات بيانات SFER وDFER الشهيرة تحقيقنا لأفضل أداء حاليًا (state of the art).