HyperAIHyperAI
منذ 17 أيام

التكثيف البيانات عبر الوسائط للترجمة الطرفية لغة الإشارة

Jinhui Ye, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Hui Xiong
التكثيف البيانات عبر الوسائط للترجمة الطرفية لغة الإشارة
الملخص

يهدف الترجمة النهائية للغة الإشارة (SLT) إلى تحويل مقاطع الفيديو الخاصة بلغة الإشارة إلى نصوص لغة مسموعة مباشرة دون تمثيلات وسيطة. وقد كان هذا المهمة تحديًا كبيرًا بسبب الفجوة بين الوسائط بين مقاطع الفيديو الخاصة باللغة الإشارة والنصوص، بالإضافة إلى ندرة البيانات المُعلَّمة. وبسبب هذه التحديات، تكون توزيعات الإدخال والإخراج في الترجمة النهائية للغة الإشارة (أي من الفيديو إلى النص) أقل فعالية مقارنةً بنهج الترجمة من "الكلمة الإشارية" إلى النص (أي من النص إلى النص). وللتغلب على هذه التحديات، نقترح إطارًا جديدًا لتوسيع البيانات عبر الوسائط (XmDA) يُحوِّل القدرات القوية للترجمة من الكلمة الإشارية إلى النص إلى الترجمة النهائية للغة الإشارة (أي من الفيديو إلى النص)، وذلك من خلال استغلال أزواج "الكلمة الإشارية - النص" الاصطناعية المستمدة من نموذج ترجمة الكلمات الإشارية. ويتكون إطار XmDA من مكوَّنين رئيسيين، وهما: مزج عبر الوسائط (cross-modality mix-up) ونقل المعرفة عبر الوسائط (cross-modality knowledge distillation). يُشجع الأول بشكل صريح على التماسك بين ميزات مقاطع الفيديو الخاصة بالإشارة وتمثيلات الكلمات الإشارية، بهدف سد الفجوة بين الوسائط. أما الثاني، فيستفيد من المعرفة التوليدية الناتجة عن نماذج المعلّم للترجمة من الكلمة الإشارية إلى النص لتوجيه عملية توليد النصوص المسموعة. أظهرت النتائج التجريبية على مجموعتي بيانات شائعتين في مجال الترجمة للغة الإشارة، وهما PHOENIX-2014T وCSL-Daily، أن الإطار المقترح XmDA يتفوق بشكل ملحوظ ومستقر على النماذج الأساسية. وتأكيدًا على هذا، أظهر التحليل المعمق أن XmDA يعزز توليد النصوص المسموعة من خلال تقليل المسافة بين التمثيلات الخاصة بالفيديوهات والنصوص، وكذلك تحسين معالجة الكلمات ذات التكرار المنخفض والجمل الطويلة.