تمييز الإشارة من خلال التحويلات الثلاثية الأبعاد المُعدّلة وشبكات التحويل الرسومي المُنظَّمة
تبقى عملية التعرف التلقائي على لغة الإشارة (SLR) تحديًا كبيرًا، خصوصًا عند استخدام مقاطع الفيديو بالألوان (RGB) وحدها (أي دون استخدام بيانات العمق أو أجهزة خاصة مبنية على القفازات) وفي إطار يعتمد على المُقدِّم غير المُحدَّد (SI)، نظرًا للتباين بين الأشخاص في أسلوب الإشارة. في هذه الورقة، نتناول التعرف على إشارات لغة الإشارة المنفصلة في ظل الإطار SI باستخدام مقاطع الفيديو RGB، ونُقدِّم إطارًا تعلمًا عميقًا مبتكرًا يستفيد من معلومات متعددة الأنواع تشمل المظهر والهيكل العظمي. وبشكل خاص، نُقدِّم ثلاث مكونات لأول مرة في مجال SLR: (i) نسخة معدلة من شبكة ResNet2+1D لالتقاط معلومات المظهر أثناء الإشارة، حيث تم استبدال التحويلات المكانية والزمنية بنسخ مُتغيرة (deformable)، مما يحقق قدرة على النمذجة المكانية الشائعة بالإضافة إلى مرونة في النمذجة الحركية المُستشعرة للحركة؛ (ii) شبكة جديدة للتحويلات الرسومية المكانية-الزمنية (ST-GCN) تعتمد على نسخة معدلة من شبكة التحويلات الرسومية (GCN)، تتضمن تعديلًا في الوزن والارتباط لتمثيل الترابطات المتنوعة بين المفاصل المختلفة، بما يتجاوز الهيكل العظمي البشري الفعلي، تليها طبقة انتباه ذاتي وتحويل زمني؛ (iii) مُعدِّل "PIXIE" ثلاثي الأبعاد لتقدير وضعية وشكل الإنسان، والذي يُنتج تمثيلًا ثلاثي الأبعاد لمعاملات دوران المفاصل المستخدمة في بناء الرسم البياني لشبكة ST-GCN. تم دمج كل من التدفق القائم على المظهر والتدفق القائم على الهيكل العظمي في النظام المقترح، وتم تقييمه على مجموعتين بيانات مكوَّنتين من إشارات منفصلة، إحداهما باللغة التركية والأخرى باللغة اليونانية. أظهر النظام المقترح أداءً أفضل من أحدث الأنظمة المُبلَّغ عنها في المجموعة الثانية، محقِّقًا خفضًا بنسبة 53% في معدل الخطأ النسبي (انخفاض مطلق بنسبة 2.45%)، في حين أظهر أداءً مماثلًا لأفضل نظام مُبلَّغ عنه في المجموعة الأولى.