شبكة عميقة فعّالة لتقدير اتجاه الرأس دون استخدام النقاط المفتاحية

يُعدّ تقدير وضعية الرأس البشري مشكلة أساسية في تحليل الوجه في السنوات الأخيرة، وله تطبيقات كثيرة في مجال الرؤية الحاسوبية مثل تقدير اتجاه النظر، والواقع الافتراضي، ومساعدة السائق. وبسبب الأهمية الكبيرة لمشكلة تقدير وضعية الرأس، يُعدّ من الضروري تصميم نموذج مدمج لحل هذه المهمة، بهدف تقليل التكلفة الحسابية عند النشر في التطبيقات القائمة على تحليل الوجه، مثل أنظمة المراقبة الكاميرات الكبيرة، والكاميرات الذكية، مع الحفاظ على الدقة. في هذا العمل، نقترح نموذجًا خفيف الوزن يعالج بشكل فعّال مشكلة تقدير وضعية الرأس. يتكون نهجنا من خطوتين رئيسيتين: (1) نُدرّب العديد من النماذج المعلمة (Teacher Models) على مجموعة بيانات مُولَّدة اصطناعيًا، وهي مجموعة 300W-LPA، للحصول على تسميات وهمية (Pseudo Labels) لوضعية الرأس. (2) نصمم معمارية تستخدم خلفية ResNet18، وندرّب النموذج المقترح باستخدام مجموع هذه التسميات الوهمية عبر عملية نقل المعرفة (Knowledge Distillation). ولتقييم فعالية النموذج، نستخدم مجموعتي بيانات واقعيتين لوضعية الرأس: AFLW-2000 وBIWI. تُظهر النتائج التجريبية أن النموذج المقترح يُحسّن بشكل ملحوظ من الدقة مقارنةً بالأساليب الحالية المُتطورة في تقدير وضعية الرأس. علاوةً على ذلك، يتمتع النموذج بسرعة زمنية حقيقية (Real-time Speed) تبلغ حوالي 300 إطارًا في الثانية (FPS) أثناء التنبؤ على وحدة معالجة Tesla V100.