التعرف على الإجراءات القائمة على الهيكل العظمي باستخدام شبكة الت convolution الرسومية المنزِلة

تمثل التعرف على الإجراءات باستخدام بيانات الهيكل العظمي اهتمامًا متزايدًا في مجال الرؤية الحاسوبية. في الآونة الأخيرة، حققت الشبكات التلافيفية الرسومية (GCNs)، التي تمثل هياكل الجسم البشري على شكل رسومات زمانية-مكانية، أداءً متميزًا. ومع ذلك، فإن التعقيد الحسابي لطرق تعتمد على GCN مرتفع جدًا، حيث يتجاوز عادةً 15 جيجا فلوب لكل عينة إجراء، ووصلت بعض الدراسات الحديثة إلى نحو 100 جيجا فلوب. إضافة إلى ذلك، تُعدّ الحقول المستقبلية (receptive fields) لكل من الرسم المكاني والرسم الزمني غير مرنة. وعلى الرغم من أن بعض الدراسات حسّنت قدرة الرسم المكاني على التعبير من خلال إدخال وحدات تكيفية تدريجية، إلا أن أدائها لا يزال محدودًا بسبب الهياكل التقليدية لـ GCN. في هذا البحث، نقترح شبكة تلافيفية رسومية جديدة تُسمى Shift-GCN لتجاوز هذين العيبين. بدلًا من استخدام التلافيف الرسومية التقليدية الثقيلة، تتكون Shift-GCN من عمليات رسومية جديدة تُسمى "الانزلاق" (shift graph operations) و convolutionات خفيفة الوزن من نوع point-wise، حيث توفر العمليات الرسومية للانزلاق مجالات مستقبلة مرنة لكل من الرسم المكاني والرسم الزمني. وقد أظهرت النتائج على ثلاث مجموعات بيانات لتمييز الإجراءات القائمة على الهيكل العظمي أن Shift-GCN تتفوق بشكل ملحوظ على أحدث الطرق المُعلنة، مع تقليل التعقيد الحسابي بأكثر من 10 أضعاف.