HyperAIHyperAI
منذ 13 أيام

تحسين التقدير ثلاثي الأبعاد لوضعية الإنسان من الفيديوهات باستخدام شبكة عصبية تعتمد على الانتباه مع تباعد التصفية

Ruixu Liu, Ju Shen, He Wang, Chen Chen, Sen-ching Cheung, Vijayan K. Asari
تحسين التقدير ثلاثي الأبعاد لوضعية الإنسان من الفيديوهات باستخدام شبكة عصبية تعتمد على الانتباه مع تباعد التصفية
الملخص

يُوفّر آلية الانتباه إطارًا تنبؤيًا تسلسليًا لتعلم النماذج المكانية مع تحسين التماسك الزمني الضمني. في هذه الدراسة، نُظهر تصميمًا منهجيًا (من 2D إلى 3D) لكيفية دمج الشبكات التقليدية وأنواع أخرى من القيود داخل إطار الانتباه لتعلم الاعتماديات طويلة المدى في مهمة تقدير الوضعية. تكمن المساهمة الرئيسية في هذه الورقة في تقديم نهج منهجي لتصميم وتدريب النماذج القائمة على الانتباه لتقدير الوضعية من الطرف إلى الطرف، مع مرونة وقابلية للتوسع لاستقبال تسلسلات فيديو بأي شكل. نحقّق ذلك من خلال تعديل مجال الاستقبال الزمني باستخدام بنية متعددة المقياس من التحويلات المُتَوَسِّعة (dilated convolutions). علاوةً على ذلك، يمكن بسهولة تعديل المعمارية المقترحة لتكون نموذجًا سببيًا (causal)، مما يمكّن من الأداء في الوقت الفعلي. كما يمكن دمج أي نظام جاهز لتقدير الوضعية 2D، مثل مكتبات Mocap، بشكل سهل وعشوائي. تحقق طريقة التوصية أداءً متقدمًا في الحد الأدنى من الخطأ المتوسط في موضع كل مفصل، حيث انخفض إلى 33.4 مم على مجموعة بيانات Human3.6M.

تحسين التقدير ثلاثي الأبعاد لوضعية الإنسان من الفيديوهات باستخدام شبكة عصبية تعتمد على الانتباه مع تباعد التصفية | أحدث الأوراق البحثية | HyperAI