HyperAIHyperAI
منذ 18 أيام

المحولات المُعدَّة مسبقًا المجمدة للترجمة الإشارية العصبية

{Joni Dambre, Mieke Van Herreweghe, Severine Verlinden, Paloma Rabaey, Marija Pizurica, Karel D'Oosterlinck, Mathieu De Coster}
المحولات المُعدَّة مسبقًا المجمدة للترجمة الإشارية العصبية
الملخص

إحدى التحديات الرئيسية في ترجمة لغة الإشارة من لغة إشارة إلى لغة مسموعة هي نقص المجموعات المتوازية. حققت الدراسات الحديثة نتائج واعدة على مجموعة بيانات RWTH-PHOENIX-Weather 2014T، التي تتضمن أكثر من ثمانية آلاف جمل متوازية بين لغة الإشارة الألمانية واللغة الألمانية المكتوبة. ومع ذلك، من منظور الترجمة الآلية العصبية، تظل هذه المجموعة صغيرة جدًا. ولتحسين أداء النماذج التي تُدرَّب على مجموعات بيانات صغيرة، يمكن استخدام التعلم الناقل. وعلى الرغم من أن هذا الأسلوب تم تطبيقه سابقًا في ترجمة لغة الإشارة لاستخراج الميزات، إلا أننا، إلى حد معرفتنا، لم تُجرَ أبحاث حول استخدام النماذج اللغوية المُدرَّبة مسبقًا. نستخدم نماذج BERT-base وmBART-50 المُدرَّبة مسبقًا لتهيئة نموذجنا لترجمة مقاطع فيديو لغة الإشارة إلى نص لغة مسموعة. ولتقليل مخاطر التأقلم الزائد (overfitting)، نطبّق تقنية الترجمة المجمدة للمحولات (frozen pretrained transformer): حيث نجمّد معظم المعاملات أثناء التدريب. وباستخدام نموذج BERT المُدرَّب مسبقًا، تفوقنا النموذج الأساسي (baseline) الذي تم تدريبه من الصفر بنسبة 1 إلى 2 نقطة في معيار BLEU-4. تُظهر نتائجنا أن النماذج اللغوية المُدرَّبة مسبقًا يمكن استخدامها لتحسين أداء ترجمة لغة الإشارة، وأن أنماط الانتباه الذاتي (self-attention) في BERT تنتقل بشكل صفر (zero-shot) إلى المُشفِّر (encoder) والفكّر (decoder) في نماذج ترجمة لغة الإشارة.