تحليل الأنشطة البشرية القابل للتفسير في ثلاثية الأبعاد باستخدام شبكات التلافيف الزمنية

قدرت التمييز للنماذج الحديثة للتعلم العميق في مجال التعرف على حركات الإنسان ثلاثية الأبعاد تزداد قوةً بشكل متزايد. بالاشتراك مع الازدهار الأخير في تمثيل حركات الإنسان ثلاثية الأبعاد باستخدام الهياكل العظمية ثلاثية الأبعاد، كان جودة وتيرة التقدم الحديثة كبيرة. ومع ذلك، لا تزال آليات عمل أحدث طرق التعلم المستندة إلى البيانات في مجال التعرف على حركات الإنسان ثلاثية الأبعاد غير واضحة بشكل كبير. في هذا البحث، نقترح استخدام فئة جديدة من النماذج المعروفة باسم شبكات النيورونات التلافيفية الزمنية (Temporal Convolutional Neural Networks - TCN) للتعرف على حركات الإنسان ثلاثية الأبعاد. مقارنةً بالنماذج الشائعة المستندة إلى LSTM من الشبكات العصبية المتكررة، فإن TCN توفر لنا طريقة لتعلم تمثيلات زمانية-مكانية قابلة للتفسير بسهولة عند إعطاء مدخلات قابلة للتفسير مثل الهياكل العظمية ثلاثية الأبعاد. نقدم استراتيجيتنا لإعادة تصميم TCN مع التركيز على القابلية للتفسير وكيف يتم الاستفادة من هذه الخصائص لبناء طريقة قوية للتعرف على النشاط الثلاثي الأبعاد. من خلال هذا العمل، نأمل أن نخطو خطوة نحو نموذج زماني-مكاني أسهل في الفهم والشرح والتفسير. يحقق النموذج الناتج، Res-TCN، أفضل النتائج الحالية على أكبر مجموعة بيانات للتعرف على حركات الإنسان ثلاثية الأبعاد، وهي مجموعة بيانات NTU-RGBD.