HyperAIHyperAI
منذ 8 أيام

دمج تمثيلات الوضع والموقع لتمييز إشارات اليد القائمة على سحابة النقاط

{Mattias P Heinrich, Alexander Bigalke}
الملخص

يمكن أن يستفيد اعتراف الإيماءات اليدوية من معالجة تسلسلات السحابة النقطية ثلاثية الأبعاد مباشرةً، التي تحمل معلومات هندسية غنية وتمكّن من تعلّم ميزات فضائية-زمنية تعبيرية. ومع ذلك، فإن النماذج ذات التدفق الواحد المستخدمة حاليًا لا تستطيع اكتشاف الميزات متعددة المقياس التي تتضمن التغيرات الدقيقة في الوضع المحلي والحركة اليدوية الشاملة بشكل كافٍ. ولذلك، نقترح نموذجًا ثنائي التدفق جديدًا، يُفكك تعلّم الميزات المحلية والعالمية. وتُدمج هذه الميزات في النهاية باستخدام LSTM لنموذج الزمني. ولتحفيز التدفق العالمي والتدفق المحلي على اكتشاف ميزات مكملة في الموقع والوضع، نقترح استخدام هياكل تعلم ثلاثية الأبعاد مختلفة في كلا التدفقين. وبشكل خاص، تتفوّق الشبكات الحديثة لسحابة النقط على اكتشاف التغيرات الدقيقة في الوضع من السحابة النقطية الخام في التدفق المحلي. أما لتعقب حركات اليد في التدفق العالمي، فإننا ندمج بين ترميز مجموعات نقاط أساس متبقية وشبكة DenseNet الكاملة الاتصال. وقد قمنا بتقييم الطريقة على مجموعتي بيانات Shrec'17 وDHG، وقمنا بالإبلاغ عن نتائج تفوق الحد الأقصى المُحقَّق حاليًا بتكاليف حسابية مُخفضة. ويُمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/multimodallearning/hand-gesture-posture-position.