HyperAIHyperAI

Command Palette

Search for a command to run...

إطار عمل متعدد المهام متعدد الوسائط يراعي التعبيرات الوجهية للتعرف على المشاعر في المحادثات الجماعية

Shijin Wang Rui Xia Jianfei Yu Wenjie Zheng

الملخص

لقد لاقت مهمة التعرف على المشاعر متعددة الوسائط في المحادثات الجماعية (MERMC) اهتمامًا كبيرًا مؤخرًا. نظرًا لتعقيد المشاهد البصرية في المحادثات الجماعية، ركزت معظم الدراسات السابقة في مجال MERMC بشكل رئيسي على الوسائط النصية والصوتية، بينما تجاهلت المعلومات البصرية. في الآونة الأخيرة، اقترح عدد من الدراسات استخراج تسلسلات الوجوه كمميزات بصرية، وأظهرت هذه الدراسات الأهمية الكبيرة للمعلومات البصرية في مهام MERMC. ومع ذلك، فإن التسلسلات الوجهية المستخرجة من الطرق السابقة عند معالجة جملة معينة قد تحتوي على وجوه لعدة أشخاص، مما يؤدي بالضرورة إلى إدخال ضوضاء في توقع المشاعر الخاصة بالشخص الحقيقي المتكلم. ولحل هذه المشكلة، نقترح إطارًا ثنائي المراحل يُسمى التعلم متعدد المهام متعدد الوسائط المستند إلى التعبيرات الوجهية (FacialMMT). بشكل محدد، تم تصميم طريقة متسلسلة (pipeline) لاستخراج تسلسل الوجه الخاص بالشخص الحقيقي المتكلم لكل جملة، ويتضمن هذا التسلسل التعرف متعدد الوسائط على الوجوه، والتجميع غير المراقب للوجوه، وتوافق الوجوه. وباستخدام التسلسلات الوجهية المستخرجة، نقترح نموذجًا للإدراك العاطفي متعدد الوسائط يراعي التعبيرات الوجهية، والذي يستخدم توزيعات المشاعر الوجهية على مستوى الإطار لتحسين التعرف على المشاعر على مستوى الجملة من خلال التعلم متعدد المهام. أظهرت التجارب فعالية الإطار المُقترح FacialMMT على مجموعة بيانات المعيار MELD. وتم الإفراج عن الشفرة المصدرية بشكل عام على الرابط: https://github.com/NUSTM/FacialMMT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp