أساس بسيط للتعلم المن軌ي متعدد الوسائط لترجمة لغة الإشارة

تُقدّم هذه الورقةbaseline بسيطًا للتعلم الناقل في ترجمة لغة الإشارة. تحتوي المجموعات الحالية لبيانات لغة الإشارة (مثل PHOENIX-2014T وCSL-Daily) على ما يقارب 10,000 إلى 20,000 زوج من مقاطع الفيديو الخاصة بالإشارات، والتعليقات النصية (gloss)، والنصوص، وهي أصغر بمرتبة من التوافقيات المستخدمة في تدريب نماذج ترجمة اللغات الشفهية. وبالتالي، يُعدّ نقص البيانات عقبة رئيسية في تدريب نماذج فعّالة لترجمة لغة الإشارة. ولتقليل هذه المشكلة، نقترح تدريب النموذج تدريجيًا من خلال بيانات عامة تضم كميات كبيرة من الإشراف الخارجي، ثم الانتقال إلى بيانات داخل المجال (within-domain). وبشكل محدد، نُدرّب شبكة الرؤية الخاصة بتحويل الإشارة إلى مصطلح (sign-to-gloss) على مجال عام يشمل الأفعال البشرية، وعلى مجال محدد يحتوي على بيانات ترجمة الإشارة إلى مصطلح، ونُدرّب شبكة الترجمة من المصطلح إلى النص (gloss-to-text) على مجال عام يشمل مجموعات متعددة اللغات، وعلى مجال محدد يحتوي على بيانات ترجمة المصطلح إلى نص. ثم يتم تحسين النموذج المشترك باستخدام وحدة إضافية تُسمّى "مُحوّل الرؤية واللغة" (visual-language mapper) التي تربط بين الشبكتين. يتفوّق هذا baseline البسيط على النتائج السابقة المُصنّفة كأفضل نتائج في معيارين لترجمة لغة الإشارة، مما يُظهر فعالية التعلم الناقل. وبفضل بساطته وأداؤه القوي، يمكن لهذا النهج أن يُشكّل قاعدة متينة للأبحاث المستقبلية. يمكن الوصول إلى الكود والنماذج من خلال: https://github.com/FangyunWei/SLRT.