HyperAIHyperAI
منذ 9 أيام

المحاذاة التباينية لتنقية الضوضاء للإRecognition المستمر للغة الإشارة

Leming Guo, Wanli Xue, Shengyong Chen
المحاذاة التباينية لتنقية الضوضاء للإRecognition المستمر للغة الإشارة
الملخص

تهدف التعرف المستمر على لغة الإشارة (CSLR) إلى تحديد الإشارات في مقاطع فيديو لغة الإشارة غير المُقطَّعة وتحويلها إلى مصطلحات نصية (glosses). ويُعد التحدي الرئيسي في CSLR هو تحقيق تطابق فعّال بين الوسائط المختلفة (الفيديو والنصوص) لتحسين تمثيل الفيديو. ومع ذلك، غالبًا ما تتجاهل النماذج الحالية للتطابق بين الوسائط دور القواعد النحوية للنص في توجيه تمثيل الفيديو أثناء تعلم السياق الزمني العالمي، مما يؤثر سلبًا على أداء التعرف. وللتغلب على هذه القيود، نقترح نموذجًا جديدًا يُسمى "التطابق المُنظّف-الموحّد" (Denoising-Contrastive Alignment - DCA). يعتمد DCA بشكل مبتكر على القواعد النحوية للنص لتعزيز تمثيلات الفيديو من خلال نهجين متكاملين: أولهما نمذجة التقابل بين المُثَل (الإشارات) والنصوص من منظور تمييزي، وثانيهما تطابق السياق العالمي من منظور توليدِي. وبشكل محدد، يحقق DCA تقابلًا مرناً على مستوى المُثَل بين الإشارات والنصوص باستخدام دالة فقدان تمايز (contrastive loss). وباستنادًا إلى هذا الأساس، يُنمذج DCA تطابق السياق العالمي بين تسلسلات الفيديو والنصوص من خلال إزالة الضوضاء عن تمثيل النص، مع التوجيه بواسطة تمثيل الفيديو. علاوة على ذلك، يُدخل DCA آلية ضبط التدرجات (gradient modulation) لتحسين تدرجات التطابق وتدرجات التعرف، مما يضمن عملية تعلّم أكثر كفاءة. وبدمج المعرفة على مستوى المصطلحات (gloss-wise) والمعطيات السياقية العالمية، يُعزز DCA بشكل كبير تمثيلات الفيديو في مهام CSLR. وقد أكدت النتائج التجريبية على معايير عامة أن DCA فعّال بالفعل، وثبتت إمكانية تحسين تمثيل الفيديو باستخدام هذا النموذج.

المحاذاة التباينية لتنقية الضوضاء للإRecognition المستمر للغة الإشارة | أحدث الأوراق البحثية | HyperAI