شبكة مكثفة-نادرة مكملة للتعرف على الحركات البشرية بناءً على وسائط RGB والهيكل العظمي
يمكن تعويض ضعفية التعرف على الحركات البشرية القائمة على RGB في البيئات المعقدة والمشاهد المتغيرة من خلال استخدام الوسيط العظمي (Skeleton Modality). ولهذا السبب، لاقت الطرق التي تدمج بين الوسيطين RGB والعظمي اهتمامًا متزايدًا. ومع ذلك، لا تزال أداء التعرف على الحركات في الطرق الحالية غير راضٍ بسبب عدم كفاية تحسين استراتيجيات أخذ العينات، والنمذجة، والدمج، حتى مع التكلفة الحسابية العالية. في هذا البحث، نقترح شبكة DSCNet (Dense-Sparse Complementary Network)، التي تهدف إلى استغلال المعلومات المكملة بين الوسيطين RGB والعظمي بتكاليف حسابية منخفضة لتحقيق أداء تنافسي في التعرف على الحركات. بشكل محدد، نستخدم استراتيجيات أخذ عينات كثيفة ونادرة، حسب المزايا المميزة لكل من الوسيطين RGB والعظمي على التوالي. ثم نستخدم البيانات العظمية كمُوجِّه لاستخلاص المنطقة النشطة الأساسية للأشخاص في الإطار RGB، مما يقلل بشكل كبير من تأثير الخلفية. علاوة على ذلك، نقترح وحدة استخلاص الحركة قصيرة المدى (STMEM) لضغط الإطارات الكثيفة من RGB إلى عدد أقل من الإطارات قبل إدخالها إلى الشبكة الأساسية، مما يمنع ارتفاع كبير في التكلفة الحسابية. كما صُمّمت شبكة Sparse-MSSTNet (شبكة الت(Convolutional Neural Network) متعددة المقياس الزماني-المكاني النادرة) لتمثيل البيانات العظمية النادرة. أظهرت التجارب الواسعة أن طريقةنا تُعدّ فعّالة في دمج المعلومات المكملة بين الوسيطين RGB والعظمي لتحسين دقة التعرف. حققت DSCNet أداءً تنافسيًا على مجموعات بيانات NTU RGB+D 60، NTU RGB+D 120، PKU-MMD، UAV-human، IKEA ASM، وNorthwest-UCLA، وبتكلفة حسابية أقل بكثير من الطرق السابقة. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/Maxchengqin/DSCNet.