دمج ميزات التضمين الرسومي مع الشبكات التلافيفية الرسومية للتعرف على الأفعال القائمة على الهيكل العظمي

تم تحقيق أداء متميز في التعرف على الحركات البشرية من خلال دمج البنية الهيكلية مع الشبكات العصبية الرسومية (Graph Convolutional Networks). نظرًا لأن البحث الحالي يركّز على تصميم الرسوم البيانية الأساسية لتمثيل بيانات الهيكل العظمي، فإن هذه الميزات المستخرجة تحتوي على معلومات طوبولوجية أساسية فقط، ولا يمكنها استخلاص رؤى أكثر شمولاً من بيانات الهيكل العظمي. في هذا البحث، نتجاوز هذه القيود من خلال اقتراح إطار عمل جديد يوحّد 15 ميزة تمثيلية رسومية داخل الشبكة العصبية الرسومية، بهدف استغلال أفضل إمكانات المعلومات الرسومية لتمييز المفاصل الرئيسية، والعظام، والأجزاء الجسمية في الحركات البشرية، بدلًا من الاقتصار على ميزة واحدة أو مجال معين. علاوةً على ذلك، نقوم بدراسة شاملة لكيفية تحديد أفضل الميزات الرسومية للهيكل العظمي لتحسين أداء التعرف على الحركات البشرية. كما نستكشف المعلومات الطوبولوجية للسلسلة الهيكلية العظمية لتعزيز الأداء بشكل أكبر ضمن إطار متعدد التدفقات. وبالإضافة إلى ذلك، يتم استخراج الميزات الرسومية الموحّدة باستخدام أساليب تكيفية أثناء عملية التدريب، مما يؤدي إلى تحسينات إضافية. وقد تم التحقق من نموذجنا عبر ثلاث مجموعات بيانات كبيرة، وهي NTU-RGB+D وKinetics وSYSU-3D، حيث تفوق النموذج الطرق المتطورة حاليًا. وبشكل عام، فإن عملنا يُمكّن من توحيد ميزات التمثيل الرسومي، ويدعم بحوثًا أكثر شمولاً في مجال التعرف على الحركات البشرية.