الشبكات العصبية التلافيفية الرسومية غير المحلية للتمييز عن الحركات القائمة على الهيكل العظمي

تُعد الطرق العميقة التقليدية لتمييز الأفعال القائمة على الهيكل العظمي (skeleton-based action recognition) عادةً ما تُنظّم الهيكل العظمي كسلسلة من الإحداثيات أو كصورة افتراضية (pseudo-image) لتقديمها إلى الشبكات العصبية التكرارية (RNNs) أو الشبكات العصبية التلافيفية (CNNs)، وهي لا تستطيع استغلال الاتصال الطبيعي بين المفاصل بشكل صريح. في الآونة الأخيرة، حققت الشبكات التلافيفية الرسومية (Graph Convolutional Networks - GCNs)، التي تمثل تعميمًا للشبكات التلافيفية التقليدية إلى هياكل غير أقليدية أكثر عمومية، أداءً متميزًا في تمييز الأفعال القائمة على الهيكل العظمي. ومع ذلك، فإن هيكل الرسم البياني (الرسم البياني للاتصالات) يُحدّد يدويًا ويُبقي ثابتًا عبر جميع الطبقات، وهو ما قد لا يكون مثاليًا للمهمة المطلوبة في تمييز الأفعال أو الهياكل التلافيفية الهرمية. علاوةً على ذلك، تُستخدم في الشبكات الرسومية السابقة بشكل رئيسي المعلومات من الدرجة الأولى (إحداثيات المفاصل)، بينما تُستغل المعلومات من الدرجة الثانية (طول العظام واتجاهها) إلى حد أقل. في هذا العمل، تم اقتراح نموذج جديد يعتمد على الشبكة الرسومية التلافيفية غير المحلية ذات المسارين (two-stream nonlocal graph convolutional network) لحل هذه المشكلات. حيث يمكن أن يُتعلم هيكل الرسم البياني في كل طبقة من النموذج إما بشكل موحد أو بشكل فردي باستخدام خوارزمية الانتشار الخلفي (BP algorithm)، مما يمنح النموذج مرونة وشمولية أكبر. وفي الوقت نفسه، تم اقتراح إطار عمل ثنائي المسارات لتمثيل معلومات المفاصل والعظام بشكل متزامن، مما يعزز أداء التمييز بشكل أكبر. وقد أظهرت التجارب الواسعة على مجموعتي بيانات كبيرتين، وهما NTU-RGB+D وKinetics، أن أداء النموذج المقترح يتفوق على أحدث النماذج المطروحة بفارق كبير.