HyperAIHyperAI
منذ 9 أيام

التعرف على لغة الإشارة على مستوى الكلمة باستخدام الشبكات العصبية متعددة التدفقات مع التركيز على المناطق المحلية ومعلومات الهيكل العظمي

Mizuki Maruyama, Shrey Singh, Katsufumi Inoue, Partha Pratim Roy, Masakazu Iwamura, Michifumi Yoshioka
التعرف على لغة الإشارة على مستوى الكلمة باستخدام الشبكات العصبية متعددة التدفقات مع التركيز على المناطق المحلية ومعلومات الهيكل العظمي
الملخص

تمثل الاعتراف بعلم الإشارة على مستوى الكلمة (WSLR) اهتمامًا متزايدًا نظرًا لتفاؤل المتخصصين بقدرتها على التغلب على الحواجز التواصلية بين الأشخاص ذوي الإعاقات الصوتية والأشخاص القادرين على السمع. في مشكلة WSLR، تم تحقيق الدقة الأعلى في الحالة الراهنة باستخدام طريقة مصممة للاعتراف بالإجراءات. في الواقع، يبدو من المنطقي أن تحقق طريقة الاعتراف بالإجراءات نتائج جيدة في WSLR، نظرًا لأن لغة الإشارة تُنظر إليها على أنها مجموعة من الإجراءات. ومع ذلك، فإن تقييمًا دقيقًا للمهمتين يُظهر أن مهمتي الاعتراف بالإجراءات وWSLR تختلفان جوهريًا. لذا، في هذه الورقة، نقترح طريقة جديدة لـ WSLR تأخذ بعين الاعتبار المعلومات الخاصة التي تُعد مفيدة بشكل خاص لمشكلة WSLR. نُنفّذ هذا التصميم من خلال شبكة عصبية متعددة التدفقات (MSNN)، تتكون من ثلاث تدفقات: 1) التدفق الأساسي، 2) التدفق الصوري المحلي، و3) التدفق العظمي. تم تصميم كل تدفق لمعالجة أنواع مختلفة من المعلومات. يتعامل التدفق الأساسي مع الحركات السريعة والدقيقة لليد والجسم، بينما يركز التدفق الصوري المحلي على أشكال الأيدي والتعبيرات الوجهية، أما التدفق العظمي فيُسجّل المواقع النسبية للجسم وكلا اليدين. يتيح هذا النهج الجمع بين أنواع متعددة من البيانات لتحليل الإشارات بشكل أكثر شمولاً. أظهرت النتائج التجريبية على مجموعتي بيانات WLASL وMS-ASL فعالية الطريقة المقترحة، حيث حققت تحسنًا بنسبة حوالي 10% إلى 15% في دقة الـ Top-1 مقارنة بالطرق التقليدية.