التعرف الفوري على إشارات اليد: دمج بيانات الهيكل العظمي وشبكات CNN متعددة التدفقات

التعرف على الإشارات اليدوية (HGR) يمكّن التفاعلات الحاسوبية البديهية للإنسان في سياقات حقيقية متنوعة. ومع ذلك، غالباً ما تواجه الأطر الحالية صعوبة في تلبية متطلبات الوقت الحقيقي التي تعتبر ضرورية لتطبيقات التعرف على الإشارات اليدوية العملية. يقدم هذا البحث إطاراً قوياً يستند إلى الهيكل العظمي لليد لتنفيذ التعرف على الإشارات اليدوية الديناميكية، حيث يقوم بتبسيط عملية التعرف على الإشارات اليدوية الديناميكية إلى مهمة تصنيف الصور الثابتة، مما يقلل بشكل فعال من متطلبات الأجهزة والحسابات. يستخدم الإطار تقنية دمج المستوى البيانات لترميز بيانات الهيكل العظمي ثلاثية الأبعاد من الإشارات الديناميكية إلى صور ثابتة مكاني-زمنية RGB. يتضمن أيضاً هندسة شبكة عصبية متعددة المدخلات (Multi-Stream CNN) مع تعديل متكامل من النهاية إلى النهاية (e2eET) يتميز بتحسين الروابط الدلالية بين تمثيلات البيانات مع الحد الأدنى من احتياجات الحساب. تم اختبار الإطار عبر خمسة مجموعات بيانات مرجعية (SHREC'17، DHG-14/28، FPHA، LMDHG، و CNR)، وأظهر أداءً تنافسياً مع أفضل التقنيات المتاحة حالياً. كما تم إثبات قدرته على دعم تطبيقات التعرف على الإشارات اليدوية في الوقت الحقيقي من خلال نشره على أجهزة الكمبيوتر الشخصية المستهلكة القياسية، مما أظهر زمن استجابة قليل واستخداماً ضئيلاً للموارد في البيئات الحقيقية. يؤكد النشر الناجح لهذا الإطار على إمكاناته لتعزيز التطبيقات الزمنية الحقيقية في مجالات مثل الواقع الافتراضي/المُعزَّز، الذكاء المحيطي، والتكنولوجيات المساعدة، مما يوفر حلاً قابلاً للتوسع وكفاءة للتعرف على الإشارات الديناميكية.