Command Palette
Search for a command to run...
تحليل الحركات البشرية ثلاثية الأبعاد القابل للتفسير باستخدام الشبكات التلافيفية الزمنية
تحليل الحركات البشرية ثلاثية الأبعاد القابل للتفسير باستخدام الشبكات التلافيفية الزمنية
Kim Tae Soo Reiter Austin
الملخص
تزداد قوة التمييز لدى النماذج الحديثة القائمة على التعلم العميق في مجال التعرف على الحركات البشرية ثلاثية الأبعاد بشكل مطرد. وبالتزامن مع الازدهار الأخير في تمثيل الحركات البشرية ثلاثية الأبعاد باستخدام الهياكل العظمية ثلاثية الأبعاد (3D skeletons)، أصبحت جودة وتيرة التقدم في هذا المجال ملحوظة بشكل كبير. ومع ذلك، لا تزال العمليات الداخلية للأساليب المتطورة القائمة على التعلم في مجال التعرف على الحركات البشرية ثلاثية الأبعاد تظل في معظمها "صندوقًا أسودًا". في هذا العمل، نقترح استخدام فئة جديدة من النماذج تُعرف باسم الشبكات العصبية التلافيفية الزمنية (Temporal Convolutional Neural Networks - TCN) في مجال التعرف على الحركات البشرية ثلاثية الأبعاد. مقارنةً بالنماذج الشائعة القائمة على LSTM من شبكات الأعصاب التكرارية (Recurrent Neural Networks)، توفر TCN، عند استخدام مدخلات قابلة للتفهم مثل الهياكل العظمية ثلاثية الأبعاد، إمكانية تعلّم تمثيلات فضائية-زمنية واضحة وسهلة الفهم بشكل صريح، لتحسين التعرف على الحركات البشرية ثلاثية الأبعاد. نقدّم استراتيجيتنا في إعادة تصميم TCN مع أخذ القابلية للتفهم بعين الاعتبار، ونوضح كيف يتم استغلال هذه الخصائص في بناء طريقة قوية للتعرف على الأنشطة ثلاثية الأبعاد. من خلال هذا العمل، نسعى إلى خطوة نحو نموذج فضائي-زمني يكون أكثر سهولة في الفهم والشرح والتفسير. وقد حقق النموذج الناتج، المسمى Res-TCN، أفضل النتائج المُحققة حتى الآن على أكبر مجموعة بيانات للتعرف على الحركات البشرية ثلاثية الأبعاد، وهي مجموعة NTU-RGBD.