HyperAIHyperAI
منذ 9 أيام

شبكة ذات تدفقين للتمييز والترجمة لغة الإشارة

Yutong Chen, Ronglai Zuo, Fangyun Wei, Yu Wu, Shujie Liu, Brian Mak
شبكة ذات تدفقين للتمييز والترجمة لغة الإشارة
الملخص

اللغات الإشارة هي لغات بصرية تستخدم تعبيرات يدوية وعناصر غير يدوية لنقل المعلومات. بالنسبة للتعرف على لغة الإشارة والترجمتها، تعتمد معظم النماذج الحالية على تشفير مقاطع الفيديو RGB مباشرة إلى تمثيلات خفية. ومع ذلك، فإن مقاطع الفيديو RGB تمثل إشارات خام تتميز بزيادة كبيرة في التكرار البصري، مما يؤدي إلى إغفال المُشِّفر للبيانات الأساسية المهمة لفهم لغة الإشارة. وللتخفيف من هذه المشكلة ودمج المعرفة الخاصة بالحقل، مثل شكل اليد والحركة الجسدية، نُقدّم مُشِّفرًا بصريًا مزدوجًا يتكون من تدفقين منفصلين لتمثيل كل من مقاطع الفيديو الخام والمتسلسلات النقطية المُنتجة بواسطة مُقدّم نقطي جاهز. ولتمكين التفاعل بين هذين التدفقين، نستكشف مجموعة من التقنيات، بما في ذلك الاتصال الجانبي ثنائي الاتجاه، وشبكة الهرم الإشارة مع الإشراف المساعد، والتجميع الذاتي على مستوى الإطار. ويُسمّى النموذج الناتج TwoStream-SLR، وهو قادر على التعرف على لغة الإشارة (SLR). كما تم توسيع TwoStream-SLR ليصبح نموذجًا للترجمة إلى لغة الإشارة (SLT)، ويُعرف باسم TwoStream-SLT، من خلال إضافة شبكة ترجمة إضافية. وقد أظهرت التجارب أداءً متميزًا على مستوى الحد الأقصى في مهام التعرف على لغة الإشارة والترجمة عليها عبر سلسلة من المجموعات البيانات، بما في ذلك Phoenix-2014 وPhoenix-2014T وCSL-Daily. يمكن الوصول إلى الكود والنماذج من خلال: https://github.com/FangyunWei/SLRT.