HyperAIHyperAI
منذ 2 أشهر

التعلم الذاتي متعدد المهام ومتعدد الوسائط للاعتراف بتعابير الوجه

Marah Halawa; Florian Blume; Pia Bideau; Martin Maier; Rasha Abdel Rahman; Olaf Hellwich
التعلم الذاتي متعدد المهام ومتعدد الوسائط للاعتراف بتعابير الوجه
الملخص

الاتصال البشري متعدد الوسائط؛ على سبيل المثال، التفاعل المباشر يشمل الإشارات السمعية (الكلام) والإشارات البصرية (حركة الوجه وحركات اليدين). ولذلك، من الضروري استغلال العديد من الوسائط عند تصميم أنظمة التعرف على تعبيرات الوجه المستندة إلى التعلم الآلي. بالإضافة إلى ذلك، نظرًا للكميات المتزايدة باستمرار من بيانات الفيديو التي تلتقط تعبيرات وجه الإنسان، يجب أن تستفيد هذه الأنظمة من مقاطع الفيديو غير المصنفة دون الحاجة إلى تسميات مكلفة. وبالتالي، في هذا البحث، نستخدم طريقة تعلم ذاتي متعددة المهام ومتعددة الوسائط للتعرف على تعبيرات الوجه من بيانات الفيديو الطبيعية. يجمع نموذجنا بين ثلاث دوال هدف ذاتية الإشراف: أولاً، خسارة مقارنة متعددة الوسائط (multi-modal contrastive loss)، تعمل على جمع البيانات المتعددة الوسائط المختلفة لنفس الفيديو معًا في فضاء التمثيل. ثانيًا، خسارة تجميع متعددة الوسائط (multi-modal clustering loss) تحافظ على البنية الدلالية لبيانات الإدخال في فضاء التمثيل. وأخيرًا، خسارة إعادة بناء البيانات متعددة الوسائط (multi-modal data reconstruction loss). نقوم بدراسة شاملة لهذه الطريقة الذاتية الإشراف متعددة المهام ومتعددة الوسائط على ثلاثة مقاييس للتعرف على تعبيرات الوجه. لهذا الغرض، نفحص أداء التعلم عبر مجموعات مختلفة من المهام الذاتية الإشراف في مهمة التعرف على تعبيرات الوجه النهائية. أظهر نموذجنا ConCluGen الأداء الأفضل مقارنة بعدة أساليب أساسية ذات إشراف كامل وإشراف ذاتي متعدد الوسائط على مجموعة بيانات CMU-MOSEI. بشكل عام، تشير نتائجنا إلى أن المهام الذاتية الإشراف متعددة الوسائط توفر زيادة كبيرة في الأداء للمهام الصعبة مثل التعرف على تعبيرات الوجه، بينما تقوم أيضًا بتقليل كمية التسميات اليدوية المطلوبة. سنقوم بإطلاق النماذج المدربة مسبقًا والكود المصدر بشكل علني.