إطار عصبي عميق للتعرف على لغة الإشارة المستمرة من خلال التدريب التكراري

تُطور هذه الدراسة إطارًا للاعتراف باللغة الإشارة المستمرة (SL) باستخدام الشبكات العصبية العميقة، والذي يحول مباشرة مقاطع الفيديو الخاصة بجمل اللغة الإشارة إلى تسلسلات من العلامات اللغوية المرتبة. في حين أن الطرق السابقة التي تعامل مع الاعتراف باللغة الإشارة المستمرة كانت تعتمد عادةً على نماذج ماركوف المخفية ذات القدرة المحدودة في التقاط المعلومات الزمنية، فإن المعمارية المقترحة في هذا العمل تستخدم شبكات عصبية عميقة متعددة الطبقات مع طبقات دمج زمنية متداخلة كوحدة استخراج الميزات، وشبكات عصبية متكررة ثنائية الاتجاه كوحدة لتعلم التسلسلات. كما نقترح عملية تحسين تكرارية لتحسين الأداء الكامل لتمثيل القدرة التعبيرية للشبكات العصبية العميقة في ظل كميات محدودة من البيانات. نبدأ أولاً بتدريب نموذج الاعتراف من الطرف إلى الطرف لتقديم اقتراحات للتوافق، ثم نستخدم هذه الاقتراحات كمعلومات إشرافية قوية لضبط مباشرة وحدة استخراج الميزات. يمكن تشغيل هذه العملية التدريبية بشكل تكراري لتحقيق تحسينات في أداء الاعتراف. بالإضافة إلى ذلك، نقدم مساهمة إضافية من خلال استكشاف دمج البيانات متعددة الوسائط باستخدام صور RGB وتدفقات بصرية (optical flow) في سياق اللغة الإشارة. وقد تم تقييم طريقة العمل على بنيتين صعبتين للاعتراف باللغة الإشارة، وتفوقت على أفضل الطرق الحالية بنسبة تحسين نسبية تزيد عن 15% في كلا القاعدتين.