HyperAIHyperAI
منذ 9 أيام

التعرف العميق على إشارات اللغة بالكلمة من الفيديو: مجموعة بيانات جديدة بحجم كبير ومقارنة بين الأساليب

Dongxu Li, Cristian Rodriguez Opazo, Xin Yu, Hongdong Li
التعرف العميق على إشارات اللغة بالكلمة من الفيديو: مجموعة بيانات جديدة بحجم كبير ومقارنة بين الأساليب
الملخص

تهدف التعرف على لغة الإشارة القائمة على الرؤية إلى مساعدة الأشخاص الصم في التواصل مع الآخرين. ومع ذلك، فإن معظم مجموعات بيانات لغة الإشارة الحالية محدودة بعدد محدود من الكلمات. وبسبب الحجم الصغير للمفردات، لا يمكن تطبيق النماذج التي تم تدريبها على هذه المجموعات في التطبيقات العملية. في هذه الورقة، نقدم مجموعة بيانات فيديو جديدة وضخمة على مستوى الكلمة تُعرف بـ "لغة الإشارة الأمريكية على مستوى الكلمة" (WLASL)، والتي تتضمن أكثر من 2000 كلمة تم إجراؤها من قبل أكثر من 100 مُشِير. وسيتم إتاحة هذه المجموعة للجمهور البحثي بشكل عام. إلى حد معرفتنا، فهي حتى الآن أكبر مجموعة بيانات عامة متاحة لغة الإشارة الأمريكية لدعم أبحاث التعرف على الإشارات على مستوى الكلمة.وبناءً على هذه المجموعة الجديدة الضخمة، أصبح من الممكن إجراء تجارب باستخدام عدة طرق تعلم عميق للتعرف على الإشارات على مستوى الكلمة، وتقييم أدائها في سياقات واسعة النطاق. وبشكل خاص، نُنفّذ ونقارن بين نموذجين مختلفين: (أ) نهج يعتمد على مظهر الصورة الشاملة، و(ب) نهج يعتمد على وضعية الإنسان ثنائية الأبعاد. ويعتبر كلا النموذجين معايير مرجعية قيّمة ستساهم في تقييم الأساليب العلمية. بالإضافة إلى ذلك، نقترح شبكة تلافيفية رمزية زمنية قائمة على الوضعية (Pose-TGCN) جديدة، والتي تُنمذج الاعتماديات المكانية والزمنية في مسارات وضعية الإنسان بشكل متزامن، مما ساهم في تحسين الأداء بشكل ملحوظ للنهج القائم على الوضعية. تُظهر نتائجنا أن النماذج القائمة على الوضعية والنموذج القائم على المظهر تحقق أداءً مماثلاً يصل إلى 66٪ في دقة التصنيف الأول في 2000 كلمة/مُصطلح، مما يُثبت صحة وصعوبة مجموعتنا. وتُتاح مجموعتنا ونماذج التعلم العميق المرجعية عبر الرابط التالي: \url{https://dxli94.github.io/WLASL/}.

التعرف العميق على إشارات اللغة بالكلمة من الفيديو: مجموعة بيانات جديدة بحجم كبير ومقارنة بين الأساليب | أحدث الأوراق البحثية | HyperAI