منذ 2 أشهر
تعلم نماذج عميقة ومدمجة لتمييز الإيماءات
Koustav Mullick; Anoop M. Namboodiri

الملخص
ننظر في مشكلة تطوير نموذج مدمج ودقيق للاعتراف بالحركات من الفيديوهات ضمن إطار التعلم العميق. لتحقيق هذا الهدف، نقترح نموذجًا مشتركًا بين الشبكات العصبية ثلاثية الأبعاد (3DCNN) والشبكات العصبية ذات الذاكرة قصيرة المدى طويلة الأمد (LSTM) يمكن تدريبه من النهاية إلى النهاية ويُظهر أنه أكثر ملاءمة لالتقاط المعلومات الديناميكية في الحركات. يحقق الحل دقة قريبة من أفضل ما تم الوصول إليه حتى الآن على مجموعة بيانات ChaLearn، مع حجم النموذج أقل بمقدار النصف. كما نستكشف طرقًا لاستخراج تمثيل مدمج بكثير في إطار تقليص المعرفة، يتبعه ضغط النموذج. يكون الحجم النهائي للنموذج أقل من 1 ميجابايت ($1~MB$)، وهو أقل بمرتين مئة من حجم نموذجنا الأولي، مع انخفاض بنسبة 7% في الدقة، وهو مناسب للاعتراف بالحركات في الوقت الحقيقي على الأجهزة المحمولة.