إطار تناقضي على مستوى الرموز لترجمة لغة الإشارة

تمثيل لغة الإشارة (SLT) يُعد تقنية واعدة تُسهم في سد الفجوة التواصلية بين الصم والسامعين. في الآونة الأخيرة، اعتمدت الباحثون مناهج الترجمة الآلية العصبية (NMT)، التي تتطلب عادةً مجموعات بيانات ضخمة للتدريب، لتحقيق الترجمة في لغة الإشارة. ومع ذلك، فإن مجموعات البيانات المتاحة علنًا لترجمة لغة الإشارة محدودة جدًا، مما يؤدي إلى انهيار تمثيلات الرموز (tokens) ودقة غير دقيقة في الرموز المولدة. ولتخفيف هذه المشكلة، نقترح منهجية ConSLT، وهي إطار جديد للتعلم المقارن على مستوى الرموز (Token-level \textbf{Con}trastive learning) لترجمة لغة الإشارة (\textbf{S}ign \textbf{L}anguage \textbf{T}ranslation)، والذي يتعلم تمثيلات فعّالة للرموز من خلال دمج التعلم المقارن على مستوى الرموز في عملية فك التشفير الخاصة بترجمة لغة الإشارة. وبشكل محدد، تُعامل ConSLT كل رمز ومرادفه الناتج عن أقنعة إسقاط (dropout masks) مختلفة كأزواج إيجابية أثناء عملية فك التشفير، ثم تُختار عشوائيًا $K$ رموز من قاموس الكلمات غير الموجودة في الجملة الحالية لتكوين أمثلة سلبية. أجرينا تجارب شاملة على معيارين (PHOENIX14T وCSL-Daily) في بيئتي الترجمة النهائية (end-to-end) والمتسلسلة (cascaded). أظهرت النتائج التجريبية أن ConSLT تستطيع تحقيق جودة ترجمة أفضل مقارنة بالأساليب القوية السابقة.