HyperAIHyperAI
منذ 9 أيام

التعرف على الإشارة المنعزلة من فيديو RGB باستخدام تدفق الوضعية والانتباه الذاتي

{Joni Dambre, Mieke Van Herreweghe, Mathieu De Coster}
التعرف على الإشارة المنعزلة من فيديو RGB باستخدام تدفق الوضعية والانتباه الذاتي
الملخص

تُعد الاعتراف التلقائي بلغة الإشارة نقطة تقاطع بين معالجة اللغة الطبيعية (NLP) ورؤية الحاسوب. وقد نشأت الهياكل المُعتمدة على التحويل (Transformer) التي حققت نجاحًا كبيرًا، والمستندة إلى الانتباه متعدد الرؤوس، من مجال معالجة اللغة الطبيعية. ويشكل شبكة التحويل المرئي (VTN) تكيّفًا لهذا المفهوم لمهام تتطلب فهم الفيديو، مثل التعرف على الحركات. ومع ذلك، نظرًا لقلة كمية البيانات المُعلَّمة المتاحة عادةً لتدريب أنظمة الاعتراف التلقائي بلغة الإشارة، لا يمكن لشبكة VTN تحقيق إمكاناتها القصوى في هذا المجال. وفي هذه الدراسة، نخفف من تأثير هذا النقص في البيانات من خلال استخراج معلومات مفيدة تلقائيًا من مقاطع فيديو لغة الإشارة. في نهجنا، تُقدَّم أنواع مختلفة من المعلومات إلى شبكة VTN ضمن بيئة متعددة الوسائط، بما في ذلك نقاط المفاصل البشرية في كل إطار (المستخرجة باستخدام OpenPose) لالتقاط حركات الجسم، بالإضافة إلى مقاطع يدوية (hand crops) لالتقاط أشكال الأيدي وتطورها. وقمنا بتقييم منهجنا على مجموعة بيانات AUTSL الحديثة الصدور المخصصة للتعرف على الإشارات المنفصلة، وحققنا دقة قدرها 92.92% على مجموعة الاختبار باستخدام بيانات RGB فقط. وبالمقارنة: بلغت دقة هيكل VTN دون استخدام مقاطع يدوية وتدفق المفاصل 82%. وتشير الملاحظة النوعية لنموذجنا إلى إمكانات إضافية كبيرة للانتباه متعدد الرؤوس متعدد الوسائط في سياق الاعتراف بلغة الإشارة.