HyperAIHyperAI
منذ 9 أيام

التعرف على لغة الإشارة متعددة الوسائط المستندة إلى الهيكل العظمي

Songyao Jiang, Bin Sun, Lichen Wang, Yue Bai, Kunpeng Li, Yun Fu
التعرف على لغة الإشارة متعددة الوسائط المستندة إلى الهيكل العظمي
الملخص

تُستخدم اللغة الإشارة بشكل شائع من قبل الأشخاص الصم أو المصابين بعسر النطق للتواصل، لكنها تتطلب جهدًا كبيرًا لامتلاكها. يهدف اعتراف اللغة الإشارة (SLR) إلى سد الفجوة بين مستخدمي اللغة الإشارة والآخرين من خلال التعرف على الإشارات من مقاطع الفيديو المقدمة. يُعد هذا المهمة ضرورية لكنها صعبة، نظرًا لأن اللغة الإشارة تنفذ باستخدام حركات يد سريعة ومعقدة، ووضعية الجسم، وحتى تعابير الوجه. في الآونة الأخيرة، اجتذبت الاعتراف بالحركة القائمة على الهيكل العظمي اهتمامًا متزايدًا نظرًا للاستقلال بين الكائن والاختلافات في الخلفية. ومع ذلك، لا تزال الاعتراف باللغة الإشارة القائمة على الهيكل العظمي في مرحلة الاستكشاف بسبب نقص التصنيفات الخاصة بنقاط اليدين. بذلت بعض الجهود لاستخدام كاشفات اليد مع مُقدّرات الوضعية لاستخراج نقاط اليد وتعلم الاعتراف باللغة الإشارة عبر الشبكات العصبية، لكن لم تتفوّق أي من هذه الأساليب على الأساليب القائمة على RGB. ولحل هذه المشكلة، نقترح إطارًا جديدًا يُسمى "SAM-SLR" (إطار SLR متعدد الوسائط واعٍ بالهيكل العظمي) للاستفادة من المعلومات متعددة الوسائط لتحقيق معدل اعتراف أعلى. بشكل خاص، نقترح شبكة تعلم تفاعليّة بالرسم البياني للغة الإشارة (SL-GCN) لتمثيل الديناميكيات المضمنة، وشبكة تلقائية فصلية فضائية-زمنية (SSTCN) جديدة لاستغلال ميزات الهيكل العظمي. كما تم دمج وسائط RGB وعمق ودمجها في إطارنا لتوفير معلومات عامة مكملة للأساليب القائمة على الهيكل العظمي SL-GCN وSSTCN. وفي النتيجة، حقق SAM-SLR أفضل أداء في كلا المسارات RGB (98.42%) وRGB-D (98.53%) في مسابقة "Looking at People: مسابقة كبيرة الحجم للغة الإشارة المستقلة عن المُنَفِّذين والمنفصلة" لعام 2021. يمكن الوصول إلى الكود الخاص بنا من خلال الرابط: https://github.com/jackyjsy/CVPR21Chal-SLR

التعرف على لغة الإشارة متعددة الوسائط المستندة إلى الهيكل العظمي | أحدث الأوراق البحثية | HyperAI