HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الإشارة المنعزلة من فيديو RGB باستخدام تدفق الوضعية والانتباه الذاتي

Joni Dambre Mieke Van Herreweghe Mathieu De Coster

الملخص

تُعد الاعتراف التلقائي بلغة الإشارة نقطة تقاطع بين معالجة اللغة الطبيعية (NLP) ورؤية الحاسوب. وقد نشأت الهياكل المُعتمدة على التحويل (Transformer) التي حققت نجاحًا كبيرًا، والمستندة إلى الانتباه متعدد الرؤوس، من مجال معالجة اللغة الطبيعية. ويشكل شبكة التحويل المرئي (VTN) تكيّفًا لهذا المفهوم لمهام تتطلب فهم الفيديو، مثل التعرف على الحركات. ومع ذلك، نظرًا لقلة كمية البيانات المُعلَّمة المتاحة عادةً لتدريب أنظمة الاعتراف التلقائي بلغة الإشارة، لا يمكن لشبكة VTN تحقيق إمكاناتها القصوى في هذا المجال. وفي هذه الدراسة، نخفف من تأثير هذا النقص في البيانات من خلال استخراج معلومات مفيدة تلقائيًا من مقاطع فيديو لغة الإشارة. في نهجنا، تُقدَّم أنواع مختلفة من المعلومات إلى شبكة VTN ضمن بيئة متعددة الوسائط، بما في ذلك نقاط المفاصل البشرية في كل إطار (المستخرجة باستخدام OpenPose) لالتقاط حركات الجسم، بالإضافة إلى مقاطع يدوية (hand crops) لالتقاط أشكال الأيدي وتطورها. وقمنا بتقييم منهجنا على مجموعة بيانات AUTSL الحديثة الصدور المخصصة للتعرف على الإشارات المنفصلة، وحققنا دقة قدرها 92.92% على مجموعة الاختبار باستخدام بيانات RGB فقط. وبالمقارنة: بلغت دقة هيكل VTN دون استخدام مقاطع يدوية وتدفق المفاصل 82%. وتشير الملاحظة النوعية لنموذجنا إلى إمكانات إضافية كبيرة للانتباه متعدد الرؤوس متعدد الوسائط في سياق الاعتراف بلغة الإشارة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعرف على الإشارة المنعزلة من فيديو RGB باستخدام تدفق الوضعية والانتباه الذاتي | مستندات | HyperAI