التعرف على الإيماءات المستندة إلى الهيكل باستخدام طبقات متصلة بالكامل مع خصائص توقيع المسار ووحدة التحويل الزمنية

يكتسب التعرف على الإيماءات المستند إلى الهيكل العظمي شعبية متزايدة بسبب تطبيقاته الواسعة المحتملة. وتتمثل القضايا الرئيسية في كيفية استخراج الخصائص المميزة وكيفية تصميم نموذج التصنيف. في هذا البحث، نستفيد أولاً من وصفة خصائص قوية، وهي توقيع المسار (Path Signature - PS)، ونقترح ثلاث خصائص PS لتمثيل خصائص الحركة المكانية والزمانية بشكل صريح، وهي: توقيع المسار المكاني (Spatial Path Signature - S_PS)، توقيع المسار الزماني (Temporal Path Signature - T_PS) وتوقيع المسار الزماني-المكاني (Temporal Spatial Path Signature - T_S_PS). مع الأخذ بعين الاعتبار أهمية الحركات الدقيقة لليد في الإيماءة، نقترح مبدأ "التركيز على اليد" (Attention On Hand - AOH) لتحديد أزواج المفاصل للـ S_PS واختيار مفصل واحد للـ T_PS. بالإضافة إلى ذلك، يتم استخدام الطريقة الثنائية لاستخراج خصائص T_PS و T_S_PS التي ترميز الديناميكيات الزمنية العالمية والمحلية في الحركة. ثانياً، بدون استراتيجية التكرار، لا يزال نموذج التصنيف يواجه تحديات فيما يتعلق بالاختلاف الزمني بين السلاسل المختلفة. نقترح وحدة جديدة لمتحول الزمن (Temporal Transformer Module - TTM) يمكنها مطابقة الإطارات الرئيسية للسلسلة من خلال تعلم معلمة الانزياح الزمني لكل إدخال. هذه هي وحدة تعتمد على التعلم يمكن دمجها في بنية الشبكة العصبونية القياسية. أخيراً، نصمم شبكة مستندة إلى طبقات متصلة بالكامل متعددة الأغشية لمعالجة الخصائص المكانية والزمانية بشكل منفصل ثم دمجها معًا للحصول على النتيجة النهائية. لقد اختبرنا طريقتنا على ثلاثة مجموعات بيانات مرجعية لإيماءات الجسم، وهي: ChaLearn 2016 و ChaLearn 2013 و MSRC-12. وقد أظهرت النتائج التجريبية أننا حققنا أفضل الأداء في مجال التعرف على الإيماءات المستند إلى الهيكل العظمي مع كفاءة حسابية عالية.