HyperAIHyperAI
منذ 17 أيام

شبكة عصبية تلافيفية فضائية-زمنية متعددة المقياس للتعرف على الحركات القائمة على الهيكل العظمي

{Jianming Liu, Qieshi Zhang, Ziliang Ren, Jun Cheng, Qin Cheng}
الملخص

تُقدّم بيانات الهيكل العظمي معلومات مهمة لتمييز الحركات، نظرًا لقدرتها العالية على مقاومة الخلفيات المزدحمة وتغيرات الإضاءة. في السنوات الأخيرة، أدى الضعف النسبي في قدرة استخلاص الميزات الفضائية-الزمنية من بيانات الهيكل العظمي إلى تراجع أداء الطرق القائمة على الشبكات العصبية التلافيفية (CNN) أو الشبكات العصبية التكرارية (RNN) من حيث الدقة في التمييز. وقد حققت مجموعة من الطرق القائمة على الشبكات العصبية التلافيفية الرسومية (GCN) أداءً متميزًا، وبدأت تُهيمن تدريجيًا. ومع ذلك، فإن التكلفة الحسابية لهذه الطرق القائمة على GCN تكون مرتفعة جدًا، حيث تتجاوز 100 غيغافلوب في بعض الدراسات. وهذا يتعارض مع الطبيعة المكثفة للغاية لبيانات الهيكل العظمي. في هذه الورقة، تم اقتراح وحدة جديدة تُسمى "الوحدة التلافيفية الفضائية-الزمنية متعددة المقاييس" (MSST) لاستغلال المزايا المكملة الضمنية بين التمثيلات الفضائية-الزمنية المتنوعة المقاييس. بدلًا من تحويل بيانات الهيكل العظمي إلى صور افتراضية كما في بعض الطرق القائمة على CNN السابقة، أو استخدام التلافيف الرسومي المعقد، اعتمدنا بالكامل على التلافيف متعددة المقاييس في البعدين الزمني والفضائي لالتقاط الاعتماديات الشاملة بين مفاصل الهيكل العظمي. وبدمج هذه الوحدة، تم اقتراح شبكة عصبية تلافيفية متعددة المقاييس فضائية-زمنية (MSSTNet) لاستخلاص الميزات الهرمية الفضائية-الزمنية ذات الدلالة العالية لتمييز الحركات. على عكس الطرق السابقة التي تُحسّن الأداء على حساب التكلفة الحسابية، يمكن تنفيذ MSSTNet بسهولة مع حجم نموذج خفيف وسرعة استدلال عالية. علاوةً على ذلك، تم استخدام MSSTNet في إطار رباعي التدفق (four-stream) لدمج بيانات من أنماط مختلفة، مما أسهم في تحسين ملحوظ في دقة التمييز. وقد أظهرت MSSTNet أداءً تنافسيًا على مجموعات بيانات NTU RGB+D 60 وNTU RGB+D 120 وUAV-Human وNorthwestern-UCLA، مع تقليل كبير في التكلفة الحسابية مقارنة بالطرق الرائدة حاليًا.