Command Palette
Search for a command to run...
التعرف على الإجراءات القائمة على الهيكل العظمي من خلال شبكات التحويل المكانية والزمنية
التعرف على الإجراءات القائمة على الهيكل العظمي من خلال شبكات التحويل المكانية والزمنية
Chiara Plizzari Marco Cannici Matteo Matteucci
الملخص
أظهر التعرف على الأنشطة البشرية القائمة على الهيكل العظمي اهتمامًا كبيرًا في السنوات الأخيرة، نظرًا لكون بيانات الهيكل العظمي تُظهر مقاومة عالية للتغيرات في الإضاءة، ومقاييس الجسم، والمناظر المتحركة للكاميرات، والخلفيات المعقدة. وعلى وجه الخصوص، أثبتت الشبكات العصبية الرسومية المُتعددة الأبعاد المُتداخلة (ST-GCN) فعاليتها في تعلم الاعتماديات المكانية والزمنية على البيانات غير الإقليدية مثل رسومات الهيكل العظمي. ومع ذلك، لا يزال تمثيل المعلومات المخفية الكامنة وراء الهيكل العظمي الثلاثي الأبعاد مشكلة مفتوحة، خصوصًا عند محاولة استخلاص معلومات فعّالة من أنماط حركة المفاصل وعلاقتها المتبادلة. في هذا العمل، نقترح شبكة جديدة من نوع المُحول المكاني-الزمني (ST-TR) تُستخدم فيها عملية الانتباه الذاتي في المُحول (Transformer self-attention) لتمثيل الاعتماديات بين المفاصل. في نموذجنا ST-TR، يُستخدم وحدة الانتباه الذاتي المكاني (SSA) لفهم التفاعلات داخل الإطار الواحد بين أجزاء الجسم المختلفة، بينما تُستخدم وحدة الانتباه الذاتي الزمني (TSA) لتمثيل الاعتماديات بين الإطارات الزمنية. تُدمج هاتان الوحدتان في شبكة ذات مسارين، وتم تقييم أداء النموذج على ثلاث مجموعات بيانات كبيرة: NTU-RGB+D 60 وNTU-RGB+D 120 وKinetics Skeleton 400، حيث أظهر أداءً متفوقًا بشكل متسق مقارنة بالنموذج الأساسي. مقارنةً بالأساليب التي تستخدم نفس بيانات الإدخال، تحقق ST-TR المقترحة أداءً من الطراز الرائد (state-of-the-art) على جميع المجموعات عند استخدام إحداثيات المفاصل كمدخلات، كما تحقق نتائج مماثلة للأساليب الرائدة عند إضافة معلومات العظام.