MTCAE-DFER: متعدد المهام تسلسلي الكودر التلقائي للاعتراف بالتعبيرات الوجهية الديناميكية

يتوسع هذا البحث في فرع الشبكة المتسلسلة ضمن إطار التعلم متعدد المهام القائم على الترميز الذاتي (MTL) للاعتراف بالتعبيرات الوجهية الديناميكية، والمعروف باسم ترميز الواجهة المتسلسل متعدد المهام للاعتراف بالتعبيرات الوجهية الديناميكية (MTCAE-DFER). يقوم MTCAE-DFER ببناء وحدة فك التشفير المتسلسلة قابلة للتركيب والاستخدام، والتي تعتمد على بنية Vision Transformer (ViT) وتستخدم مفهوم فك التشفير في Transformer لإعادة بناء وحدة الانتباه متعددة الرؤوس. يُستخدم الإخراج من فك التشفير للمهمة السابقة كاستعلام (Q)، يمثل الخصائص الديناميكية المحلية، بينما يُستخدم إخراج المُشفر المشترك من Video Masked Autoencoder (VideoMAE) كمفتاح (K) وقيمة (V)، يمثل الخصائص الديناميكية العالمية. يساعد هذا الترتيب على تسهيل التفاعل بين الخصائص الديناميكية العالمية والمحلية عبر المهام ذات الصلة.بالإضافة إلى ذلك، تهدف هذه المقترحات إلى تخفيف مشكلة الانحياز الزائد في النماذج المعقدة الكبيرة. نستفيد من نهج التعلم متعدد المهام القائم على الترميز الذاتي المتسلسل لاستكشاف تأثير اكتشاف الوجه الديناميكي ونقاط مرجعية الوجه الدينامية على اعتراف التعبيرات الوجهية الديناميكية، مما يعزز قدرة النموذج على التعميم. بعد إجراء العديد من التجارب الاستقصائية الواسعة والمقارنة مع الأساليب الأكثر تقدمًا (SOTA) على مختلف المجموعات العامة من البيانات للاعتراف بالتعبيرات الوجهية الديناميكية، تم إثبات صلابة نموذج MTCAE-DFER وكفاءة التفاعل بين الخصائص الديناميكية العالمية والمحلية بين المهام ذات الصلة.