HyperAIHyperAI

Command Palette

Search for a command to run...

MTCAE-DFER: متعدد المهام تسلسلي الكودر التلقائي للاعتراف بالتعبيرات الوجهية الديناميكية

Peihao Xiang Kaida Wu Ou Bai

الملخص

يتوسع هذا البحث في فرع الشبكة المتسلسلة ضمن إطار التعلم متعدد المهام القائم على الترميز الذاتي (MTL) للاعتراف بالتعبيرات الوجهية الديناميكية، والمعروف باسم ترميز الواجهة المتسلسل متعدد المهام للاعتراف بالتعبيرات الوجهية الديناميكية (MTCAE-DFER). يقوم MTCAE-DFER ببناء وحدة فك التشفير المتسلسلة قابلة للتركيب والاستخدام، والتي تعتمد على بنية Vision Transformer (ViT) وتستخدم مفهوم فك التشفير في Transformer لإعادة بناء وحدة الانتباه متعددة الرؤوس. يُستخدم الإخراج من فك التشفير للمهمة السابقة كاستعلام (Q)، يمثل الخصائص الديناميكية المحلية، بينما يُستخدم إخراج المُشفر المشترك من Video Masked Autoencoder (VideoMAE) كمفتاح (K) وقيمة (V)، يمثل الخصائص الديناميكية العالمية. يساعد هذا الترتيب على تسهيل التفاعل بين الخصائص الديناميكية العالمية والمحلية عبر المهام ذات الصلة.بالإضافة إلى ذلك، تهدف هذه المقترحات إلى تخفيف مشكلة الانحياز الزائد في النماذج المعقدة الكبيرة. نستفيد من نهج التعلم متعدد المهام القائم على الترميز الذاتي المتسلسل لاستكشاف تأثير اكتشاف الوجه الديناميكي ونقاط مرجعية الوجه الدينامية على اعتراف التعبيرات الوجهية الديناميكية، مما يعزز قدرة النموذج على التعميم. بعد إجراء العديد من التجارب الاستقصائية الواسعة والمقارنة مع الأساليب الأكثر تقدمًا (SOTA) على مختلف المجموعات العامة من البيانات للاعتراف بالتعبيرات الوجهية الديناميكية، تم إثبات صلابة نموذج MTCAE-DFER وكفاءة التفاعل بين الخصائص الديناميكية العالمية والمحلية بين المهام ذات الصلة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp