HyperAIHyperAI
منذ 9 أيام

الاندماج الزمني الاتصالي لترجمة لغة الإشارة

{Meng, Zheng jun; Wang, Wen gang; Zha, Dan; Zhou, Shuo; Guo, Wang}
الاندماج الزمني الاتصالي لترجمة لغة الإشارة
الملخص

يُعدّ الترجمة المستمرة لغة الإشارة (CSLT) مشكلة مُراقبة ضعيفة، وتهدف إلى ترجمة مقاطع الفيديو القائمة على الرؤية إلى لغات طبيعية ضمن سياق لغوي لغة الإشارة المعقد، حيث لا توجد حدود دقيقة لكل فعل إشارة في الفيديو بالنسبة للكلمات المرتبة في العلامة النصية. تُقدّم هذه الورقة بنية عميقة هجينة تتكون من وحدة ت convolution الزمنية (TCOV)، ووحدة وحدة التكرار المزدوجة ذات المُمرّر (BGRU)، ووحدة طبقة الدمج (FL) لمعالجة مشكلة CSLT. تُركّز وحدة TCOV على التقاط الانتقال الزمني القصير في ميزات القطع المجاورة (النمط المحلي)، بينما تحافظ وحدة BGRU على الانتقال الزمني الطويل عبر البُعد الزمني (النمط العالمي). أما وحدة FL، فهي تُدمج تضمين الميزات من TCOV وBGRU لتعلُّم علاقتها التكاملية (النمط المتبادل). وهكذا، نقترح آلية دمج زمنية ارتباطية متعددة (CTF) للاستفادة من مزايا كل وحدة. تم تصميم استراتيجية تحسين خسارة CTC المشتركة واستراتيجية دمج فك التشفير القائمة على التصنيف العميق لتعزيز الأداء. وبتدريب واحد فقط، تحقق نموذجنا تحت قيود CTC أداءً مماثلاً لأفضل الطرق الحالية التي تعتمد على تكرار متعدد من تكرارات EM. وقد تم اختبار النتائج وتأكيدها على مجموعة معيارية، ألا وهي مجموعة بيانات RWTH-PHOENIX-Weather، مما يُظهر فعالية الطريقة المقترحة.