HyperAIHyperAI
منذ 9 أيام

مُحَوِّل مُبْتَكَرٌ مُ basé على مواقف الإشارة لتمييز لغة الإشارة على مستوى الكلمة

{Marek Hrúz, Matyáš Boháček}
مُحَوِّل مُبْتَكَرٌ مُ basé على مواقف الإشارة لتمييز لغة الإشارة على مستوى الكلمة
الملخص

في هذه الورقة، نقدم نظامًا لتمييز لغة الإشارة على مستوى الكلمة يستند إلى نموذج المُحَوِّل (Transformer). ونهدف إلى حلٍّ يتمتع بتكاليف حسابية منخفضة، نظرًا إلى الاحتمالات الكبيرة التي نراها في استخدام مثل هذا النظام على الأجهزة المحمولة. يعتمد التمييز على تقدير وضعية جسم الإنسان على شكل مواقع نقاط حدود ثنائية الأبعاد (2D landmarks). ونُقدّم خطة تطبيع مُحكمة لوضعية الجسم تأخذ بعين الاعتبار مساحة الإشارة، وتعالج وضعيات اليدين ضمن نظام إحداثيات محلي منفصل، بمعزل عن وضعية الجسم ككل. ونُظهر تجريبيًا التأثير الكبير لهذا التطبيع على دقة النظام المقترح. كما نُقدّم عدة تحسينات لوضعية الجسم، تُعزز من الدقة، بما في ذلك تحسين دوار للمركبات المتسلسلة (sequential joint rotation augmentation) جديد. وباستخدام جميع هذه الأنظمة معًا، نحقق نتائج من الطراز الرائد (state-of-the-art) في التصنيف الأولي (top-1) على مجموعتي بيانات WLASL وLSA64. فعلى مجموعة بيانات WLASL، نتمكن من تمييز 63.18٪ من تسجيلات الإشارات في مجموعة 100 مصطلحًا (100-gloss subset)، وهو ما يُمثّل تحسنًا نسبيًا بنسبة 5٪ مقارنة بالحالة السابقة. أما في مجموعة 300 مصطلحًا (300-gloss subset)، فقد بلغت نسبة التمييز 43.78٪، أي تحسنًا نسبيًا بنسبة 3.8٪. وبالنسبة لمجموعة بيانات LSA64، نُعلن عن دقة تمييز تجريبية تبلغ 100٪.