تمييز التعبيرات المركبة متعددة التسميات: قاعدة بيانات C-EXPR والشبكة

تركز الأبحاث في التحليل التلقائي لتعبيرات الوجه بشكل رئيسي على تمييز التعبيرات الأساسية السبعة. ومع ذلك، فإن التعبيرات المركبة أكثر تنوعًا، وتعكس بشكل أكثر دقة تعقيد ودقة التعبيرات العاطفية اليومية التي نظهرها. إذ تُعدّ أبحاث تمييز التعبيرات المركبة (CER) محدودة نسبيًا، نظرًا لقلة عدد قواعد البيانات المتاحة، والتي تكون صغيرة الحجم، وخاضعة لبيئة معملية، غير متوازنة، وثابتة. في هذا البحث، نقدم قاعدة بيانات صوتية-بصرية (A/V) من نوع "في الطبيعة" (in-the-wild)، تُسمى C-EXPR-DB، وتتكوّن من 400 مقطع فيديو تضم 200 ألف إطار، تم ترميزها من حيث 13 تعبيرًا مركبًا، ومؤشرات العاطفة بناءً على مستوى القيمة (valence) والتحفيز (arousal)، ووحدات الفعل (Action Units)، والكلام، والنقاط المرجعية الوجهية، والسمات الوجهية. كما نقترح C-EXPR-NET، وهي طريقة تعتمد على التعلم متعدد المهام (MTL) لتمييز التعبيرات المركبة (CER) وتمييز وحدات الفعل (AU-D)، حيث يُستخدم التمييز وحدات الفعل لتعزيز أداء تمييز التعبيرات المركبة. أما بالنسبة لتمييز وحدات الفعل، فإننا ندمج وصفًا معنويًا لوحدات الفعل إلى جانب المعلومات البصرية. أما في تمييز التعبيرات المركبة، فيتم استخدام صيغة متعددة التسميات (multi-label) ووظيفة خسارة الانحراف كولبوج (KL-divergence loss). كما نقترح أيضًا وظيفة خسارة مطابقة التوزيع (distribution matching loss) لربط مهام CER وAU-D بهدف تعزيز أدائهما وتقليل التحويل السلبي (أي عندما يكون أداء النموذج متعدد المهام أسوأ من أداء أي نموذج منفصل مخصص لمهمة واحدة). أُجريت دراسة تجريبية واسعة تُظهر الأداء المتميز لـ C-EXPR-NET، مما يؤكد المطالبات النظرية. وأخيرًا، أُظهر أن C-EXPR-NET قادرة على التعميم الفعّال لمعرفتها في سياقات جديدة لتمييز العواطف، بشكل يشبه النموذج الصفر (zero-shot).