Uni-Sign: نحو فهم موحد للغة الإشارة على نطاق واسع

لقد حظيت التدريب المسبق للغة الإشارة باهتمام متزايد بفضل قدرتها على تعزيز الأداء في مهام مختلفة لفهم اللغة الإشارة (SLU). ومع ذلك، تعاني الطرق الحالية غالبًا من فجوة بين التدريب المسبق والتحسين الدقيق، مما يؤدي إلى نتائج غير مثلى. لحل هذه المشكلة، نقترح Uni-Sign، وهو إطار تدريب مسبق موحد يغلق الفجوة بين التدريب المسبق والمهام اللاحقة لـ SLU من خلال استراتيجية تدريب مسبق توليدية على نطاق واسع ومنهجية تحسين دقيقة جديدة. أولاً، نقدم CSL-News، وهو مجموعة بيانات كبيرة للغة الإشارة الصينية (CSL) تحتوي على 1,985 ساعة من الفيديو مقترنة ب Annotations نصية، مما يمكّن من التدريب المسبق على نطاق واسع بكفاءة. ثانيًا، يوحّد Uni-Sign مهام SLU عن طريق معاملة المهام اللاحقة كمهمة واحدة لترجمة اللغة الإشارة (SLT) أثناء التحسين الدقيق، مما يضمن انتقالًا سلسًا للمعرفة بين التدريب المسبق والتحسين الدقيق. بالإضافة إلى ذلك، ندمج وحدة الاندماج المسترشدة بالسابق (PGF) واستراتيجية العينة الواعية للنقاط (score-aware sampling) لدمج المعلومات البصرية والموضعية بكفاءة، معالجة عدم دقة نقاط المفتاح وتحسين الكفاءة الحسابية. تُظهر التجارب الواسعة عبر العديد من مقاييس SLU أن Uni-Sign يحقق أداءً رائدًا في عدة مهام لاحقة لـ SLU. يمكن الحصول على مجموعة البيانات والكود من github.com/ZechengLi19/Uni-Sign.