HyperAIHyperAI
منذ 9 أيام

StepNet: شبكة تُراعي الأجزاء الفضائية-الزمنية لتمييز الإشارات المنعزلة

Xiaolong Shen, Zhedong Zheng, Yi Yang
StepNet: شبكة تُراعي الأجزاء الفضائية-الزمنية لتمييز الإشارات المنعزلة
الملخص

الهدف من التعرف على لغة الإشارة (SLR) هو مساعدة الأشخاص الصم أو ذوي الصعوبات السمعية على التغلب على حواجز التواصل. تُقسَّم معظم الطرق الحالية تقليديًا إلى خطين رئيسيين: الطرق القائمة على الهيكل العظمي (Skeleton-based) والطرق القائمة على الصور الملونة (RGB-based)، لكن كلا النوعين يعانيان من قيود معينة. ففي حين أن الطرق القائمة على الهيكل العظمي لا تأخذ تعابير الوجه بعين الاعتبار، فإن الطرق القائمة على الصور الملونة غالبًا ما تتجاهل البنية الدقيقة لليد. وللتغلب على هاتين القيود، نقترح إطارًا جديدًا يُسمى الشبكة المُدركة للجُزئيات الزمانية والمكانية (StepNet)، المستند إلى أجزاء الصورة الملونة (RGB parts). وكما يوحي اسمه، يتكون هذا الإطار من وحدتين رئيسيتين: نموذج التمثيل المكاني على مستوى الجُزئيات، ونموذج التمثيل الزمني على مستوى الجُزئيات. وبشكل خاص، يُمكن لنموذج التمثيل المكاني على مستوى الجُزئيات التقاط الخصائص القائمة على المظهر، مثل اليد والوجه، في فضاء الميزات دون الحاجة إلى أي تسميات على مستوى النقاط المفتاحية. أما نموذج التمثيل الزمني على مستوى الجُزئيات، فيقوم بشكل غير مباشر باستخراج السياق على المدى القصير والطويل لالتقاط الخصائص ذات الصلة عبر الزمن. أظهرت التجارب الواسعة أن StepNet، بفضل وحدتيه الزمانية والمكانية، حقق دقة تنافسية في التصنيف الأولي لكل مثال (Top-1 Per-instance) على ثلاث معايير شائعة في التعرف على لغة الإشارة، وهي: 56.89% على WLASL، و77.2% على NMFs-CSL، و77.1% على BOBSL. علاوةً على ذلك، يُعدّ هذا الأسلوب متوافقًا مع مدخلات التدفق البصري (optical flow)، ويمكنه تحقيق أداءً متفوقًا عند دمجه معها. نأمل أن يُمثّل هذا العمل خطوة أولية مفيدة لذوي الصعوبات السمعية.