بناء قواعد معيارية أقوى وأسرع للتعرف على الإجراءات القائمة على الهيكل العظمي

إحدى المشكلات الأساسية في التعرف على الحركات القائمة على الهيكل العظمي هي كيفية استخراج ميزات تمييزية عبر جميع مفاصل الهيكل العظمي. ومع ذلك، فإن تعقيد النماذج الحديثة المُصنفة كأفضل النماذج (SOTA) لهذه المهمة يميل إلى أن يكون معقدًا جدًا ومُفرطًا في التجزئة بالبارامترات. وقد زادت الكفاءة المنخفضة في تدريب النموذج واستنتاجه من تكاليف التحقق المعمّقة لبنية النموذج في مجموعات بيانات كبيرة. لمعالجة هذه المشكلة، تم دمج طبقات الت convolution المفصّلة المتقدمة حديثًا في شبكة متعددة الفروع المُدمجة مبكرًا (MIB)، مما يُشكّل قاعدة فعّالة لشبكة التوليف الرسومي (GCN) للتعريف بالحركات القائمة على الهيكل العظمي. علاوةً على ذلك، استنادًا إلى هذه القاعدة، صممنا استراتيجية تكبير مركبة لتوسيع عرض النموذج وعمقه بشكل متزامن، ونتيجة لذلك تم الحصول على مجموعة من القواعد الفعّالة لشبكة GCN ذات دقة عالية وعدد صغير من البارامترات القابلة للتدريب، وتم تسميتها بـ EfficientGCN-Bx، حيث يشير "x" إلى معامل التكبير. وعلى مجموعتي بيانات كبيرتين، وهما NTU RGB+D 60 و120، تفوقت القاعدة EfficientGCN-B4 المقترحة على غيرها من الطرق المُصنفة كأفضل النماذج (SOTA)، مثل تحقيق دقة قدرها 91.7% في اختبار التمييز بين الأفراد (cross-subject) لمجموعة بيانات NTU 60، مع أن حجمها يقل بنسبة 3.15 مرة وسرعة تنفيذها أعلى بنسبة 3.21 مرة مقارنةً بنموذج MS-G3D، وهو أحد أفضل النماذج المُصنفة كأفضل النماذج (SOTA). يتوفر الكود المصدري بنسخة PyTorch والنماذج المُدرّبة مسبقًا على الرابط: https://github.com/yfsong0709/EfficientGCNv1.