تحسين ترجمة لغة الإشارة باستخدام البيانات غير المُتعدِّدة اللغات من خلال الترجمة العكسية للإشارات

رغم وجود أعمال بارزة سابقة في مجال ترجمة لغة الإشارة (SLT)، تظل هناك عقبة غير بسيطة، وهي نقص كمية البيانات المتزامنة بين لغة الإشارة والنص. وللتغلب على هذا العائق المتمثل في نقص البيانات المتزامنة، نقترح منهجية تُسمى "الترجمة العكسية لغة الإشارة" (SignBT)، التي تُدمج كميات كبيرة من النصوص اللغوية المنطوقة في عملية تدريب نماذج ترجمة لغة الإشارة. وباستخدام نموذج للترجمة من النص إلى "الجلاس" (gloss)، نقوم أولًا بترجمة النص الوحيد عكسيًا إلى تسلسل من الجلاس. ثم نُولّد التسلسل المزامن لغة الإشارة من خلال تجميع أجزاء من بنك مُقدّر يحول الجلاس إلى لغة الإشارة، وذلك على مستوى الميزات. وأخيرًا، تُستخدم البيانات المُصطنعة الناتجة كمكمل قوي لتدريب الإطار النموذجي للترجمة المُباشرة (end-to-end) من خلال نموذج مُشفّر-مُفكّك (encoder-decoder) لـ SLT.ولتعزيز أبحاث ترجمة لغة الإشارة، نُسهم أيضًا بقاعدة بيانات ضخمة تُسمى CSL-Daily، وهي قاعدة بيانات لترجمة لغة الإشارة المستمرة على نطاق واسع. وتُوفّر هذه القاعدة بيانات ترجمات لغوية منطوقة، بالإضافة إلى تسميات على مستوى الجلاس. وتركز المواضيع على حياة الناس اليومية (مثل السفر، التسوق، الرعاية الصحية)، وهي السيناريوهات الأكثر احتمالًا لتطبيقات ترجمة لغة الإشارة. ونُقدّم نتائج تجريبية واسعة وتحليلًا متعمقًا لأنماط ترجمة لغة الإشارة على قاعدة بيانات CSL-Daily. وباستخدام المنهجية المقترحة للترجمة العكسية لغة الإشارة، نحقق تحسينًا ملحوظًا مقارنةً بالأساليب السابقة المُتقدمة في مجال ترجمة لغة الإشارة.