SignBERT: التدريب المسبق لتمثيل يراعي نموذج اليد لتمRecognition لغة الإشارة

تلعب الإشارة اليدوية دورًا حاسمًا في لغة الإشارة. قد تعاني الطرق الحالية القائمة على التعلم العميق لتمييز لغة الإشارة (SLR) من ضعف التفسيرية والانحياز الزائد (overfitting) نظرًا لافتقار مصادر بيانات الإشارة إلى الكفاية. في هذا البحث، نقدّم SignBERT الأول من نوعه القابل للتدريب المسبق ذاتيًا، والذي يدمج معلومات مسبقة عن اليد (hand prior) لتحسين أداء تمييز لغة الإشارة. يُعامل SignBERT وضعية اليد كـ "رمز بصري" (visual token)، مستمدًا من مستخرج لوضعية الجسم جاهز للاستخدام (off-the-shelf pose extractor). ثم يتم تضمين هذه الرموز البصرية بمعلومات الحالة اليدوية، والبعد الزمني، واتجاه اليد (اليدوية اليسرى/اليمينية). للاستفادة القصوى من المصادر المتاحة لبيانات الإشارة، يقوم SignBERT أولاً بتدريب مسبق ذاتيًا من خلال إخفاء واسترجاع الرموز البصرية. وبالارتباط مع استراتيجيات متعددة لإخفاء البيانات (mask modeling)، نحاول دمج المعلومات المسبقة عن اليد بطريقة واعية بالنموذج، بهدف تمثيل أفضل للسياق الهرمي عبر التسلسل اليدوي. وبعد إضافة رأس التنبؤ (prediction head)، يتم تدريب SignBERT بشكل دقيق (fine-tuning) لإنجاز مهمة تمييز لغة الإشارة في المهام التالية (downstream SLR). لتأكيد فعالية طريقتنا في تمييز لغة الإشارة، أجرينا تجارب واسعة على أربع مجموعات بيانات معيارية عامة: NMFs-CSL، SLR500، MSASL، وWLASL. أظهرت نتائج التجارب فعالية كل من التعلم الذاتي (self-supervised learning) والمعلومات المسبقة عن اليد التي تم استيرادها. علاوة على ذلك، حققنا أداءً متقدمًا على جميع المجموعات المعيارية، مع تحسن ملحوظ مقارنة بالأساليب السابقة.