HyperAIHyperAI
منذ 9 أيام

C2SLR: اعتراف بسيط مستمر مُعزَّز بالاتساق

{Brian Mak, Ronglai Zuo}
C2SLR: اعتراف بسيط مستمر مُعزَّز بالاتساق
الملخص

يتمثل العمود الفقري لمعظم نماذج اعتراف اللغة الإشارة المستمرة القائمة على التعلم العميق (CSLR) في وحدة بصرية، ووحدة تسلسلية، ووحدة محاذاة. ومع ذلك، يصعب تدريب هذه الأعمدة الفقريّة بشكل كافٍ باستخدام دالة فقدان واحدة فقط من نوع التصنيف الزمني المتصل (CTC). في هذه الدراسة، نقترح قيودًا مساعدةً اثنتين لتعزيز الأعمدة الفقريّة لـ CSLR من منظور الاتساق. تهدف القيد الأول إلى تعزيز الوحدة البصرية، التي تتأثر بسهولة بمشكلة التدريب غير الكافي. وبشكل خاص، وبما أن اللغات الإشارة تنقل المعلومات بشكل رئيسي من خلال وجوه المُشِيرين وأيديهم، نُدمج وحدة انتباه فراغي موجهة بالنقاط المفتاحية داخل الوحدة البصرية لفرض تركيزها على المناطق المفيدة، أي التوافق في الانتباه الفراغي. ومع ذلك، قد لا يكون تعزيز الوحدة البصرية وحدها كافيًا للاستفادة الكاملة من إمكانات الهيكل الأساسي. مستوحى من حقيقة أن مخرجات الوحدة البصرية والوحدة التسلسلية تمثلان نفس الجملة، نفرض بشكل إضافي قيدًا على التوافق في تمثيل الجملة بينهما لتعزيز قدرة التمثيل في كليهما. تؤكد النتائج التجريبية على ثلاثة أعمدة فقريّة ممثلة فعالية هاتين القيود. وبشكل أكثر لفتًا، وباستخدام هيكل أساسي مبني على المحولات (Transformer)، يحقق نموذجنا أداءً يُصنف ضمن الأفضل أو مُنافسًا على ثلاثة معايير شهيرة، وهي PHOENIX-2014 وPHOENIX-2014-T وCSL.