التبخير الديناميكي للنواة لتحسين تقدير الوضع في مقاطع الفيديو بشكل فعال

تقوم الطرق الحالية لتقدير وضعية الإنسان المستندة إلى الفيديو بتطبيق شبكات كبيرة على كل إطار في الفيديو لتحديد مفاصل الجسم، مما يؤدي إلى تكلفة حسابية عالية ونادراً ما تلبي متطلبات التأخير المنخفض في التطبيقات الواقعية. لحل هذه المشكلة، نقترح نموذج جديد يُسمى تقليص النواة الديناميكي (DKD) لتسهيل استخدام الشبكات الصغيرة في تقدير وضعية الإنسان في الفيديوهات، مما يرفع بشكل كبير من الكفاءة. بشكل خاص، يُقدم DKD مُقلِّصًا خفيف الوزن لتقليص نوى الوضعية عبر الاستفادة من الإشارات الزمنية من الإطار السابق بطريقة تغذية متقدمة واحدة. ثم يقوم DKD بتقسيم عملية تحديد مفاصل الجسم إلى إجراء مطابقة بين نوى الوضعية والإطار الحالي، والتي يمكن حسابها بكفاءة عبر االتشويش البسيط. بهذه الطريقة، يتمكن DKD من نقل المعرفة المتعلقة بالوضعية بسرعة من إطار إلى آخر لتوفير إرشادات مكثفة لتحديد مفاصل الجسم في الإطارات اللاحقة، مما يتيح استخدام الشبكات الصغيرة في تقدير وضعية الإنسان المستند إلى الفيديو. للمساعدة في عملية التدريب، يستخدم DKD استراتيجية تدريب معادية زمنيًا تُدخل تمييزًا زمنيًا للمساعدة في إنتاج نوى وضعية ونتائج تقدير وضعية متماسكة زمنيًا على مدى طويل. أظهرت التجارب على مقاييس Penn Action و Sub-JHMDB فعالية DKD المتفوقة، حيث حقق النموذج تقليلًا بمقدار 10 أضعاف في عمليات التعويم (flops) وزيادة السرعة بمقدار ضعفين مقارنة بأفضل نموذج سابق، بالإضافة إلى دقة رائدة في مجاله.