HyperAIHyperAI
منذ 2 أشهر

استخدام خصائص المشهد الدلالية والهياكل الشبكية متعددة التدفقات في نهج سياقي للاعتراف بالعواطف البصرية القائمة على الفيديو في البيئة الحقيقية

Ioannis Pikoulis; Panagiotis P. Filntisis; Petros Maragos
استخدام خصائص المشهد الدلالية والهياكل الشبكية متعددة التدفقات في نهج سياقي للاعتراف بالعواطف البصرية القائمة على الفيديو في البيئة الحقيقية
الملخص

في هذا العمل، نواجه مهمة التعرف على العواطف البصرية القائمة على الفيديو في البيئات الطبيعية. تُعاني الأساليب القياسية التي تعتمد فقط على استخراج الخصائص الجسدية والوجهية من عدم الدقة في التنبؤ بالعواطف في الحالات التي تكون فيها مصادر المعلومات العاطفية المذكورة غير متاحة بسبب اتجاه الرأس أو الجسم، الدقة المنخفضة والإضاءة السيئة. نسعى إلى تخفيف هذه المشكلة من خلال الاستفادة من السياق البصري على شكل خصائص وسمات المشهد، كجزء من إطار عمل أوسع للتعرف على العواطف. تشكل شبكات المقاطع الزمنية (TSN) العمود الفقري للنموذج المقترح لدينا. بالإضافة إلى وضعية المدخلات RGB، نستخدم التدفق البصري الكثيف، مع اتباع نهج متعدد الأغشية بديهي لتحقيق ترميز حركة أكثر فعالية. علاوة على ذلك، نركز اهتمامنا على التعلم القائم على الهيكل العظمي واستخدام البيانات المركزية حول الحركة كوسيلة لتدريب شبكة التجاور الزماني-المكاني (ST-GCN) للمهمة الخاصة بالتعرف على العواطف. تؤكد تجاربنا الواسعة على مجموعة بيانات لغة الجسم الصعبة (BoLD) تفوق طرقنا على النهج الموجودة حالياً، بينما من خلال دمج جميع الوحدات المذكورة بشكل صحيح في مجموعة الشبكات، نتمكن من تجاوز أفضل درجات التعرف المنشورة سابقاً بمقدار كبير.

استخدام خصائص المشهد الدلالية والهياكل الشبكية متعددة التدفقات في نهج سياقي للاعتراف بالعواطف البصرية القائمة على الفيديو في البيئة الحقيقية | أحدث الأوراق البحثية | HyperAI