التعرف على الأنشطة المستندة إلى الهيكل العظمي باستخدام الشبكات العصبية التلافيفية

الطرق الحديثة الحالية للاعتراف بالأفعال بناءً على الهيكل العظمي تعتمد في الغالب على الشبكات العصبية التكرارية (RNN). في هذا البحث، نقترح إطارًا جديدًا يعتمد على الشبكات العصبية التلافيفية (CNN) للتصنيف والكشف عن الأفعال. يتم إدخال الإحداثيات الأولية للهيكل العظمي وحركة الهيكل مباشرة إلى CNN للتنبؤ بالتصنيفات. تم تصميم وحدة تحويل هيكل عظمي جديدة لإعادة ترتيب واختيار المفاصل الهامة تلقائيًا. باستخدام شبكة بسيطة تتكون من 7 طبقات، حققنا دقة 89.3٪ على مجموعة التحقق من صحة بيانات NTU RGB+D. بالنسبة للكشف عن الأفعال في مقاطع الفيديو غير المقصوصة، قمنا بتطوير شبكة اقتراح النافذة لاستخراج اقتراحات المقاطع الزمنية، والتي يتم تصنيفها بشكل مزيد داخل نفس الشبكة. على مجموعة البيانات الحديثة PKU-MMD، حققنا نسبة mAP 93.7٪، مما يتفوق بكثير على النموذج الأساسي.