شبكة ت(Convolution) زمنية كثيفة للترجمة إلى لغة الإشارة

يُعدّ ترجمة لغة الإشارة (SLT)، التي تهدف إلى تحويل مقاطع فيديو لغة الإشارة إلى لغة طبيعية، مُدرّبَة بشكل ضعيف نظرًا لعدم وجود علاقة تقابل دقيقة بين الإجراءات البصرية والكلمات النصية في تسميات الجملة. ولتحقيق التماثل بين إجراءات لغة الإشارة وترجمتها تلقائيًا إلى الكلمات المقابلة، تُقدّم هذه الورقة شبكة ت(Convolution) زمنية كثيفة تُسمّى DenseTCN، والتي تلتقط الإجراءات من منظور هرمي. داخل هذه الشبكة، تم تصميم شبكة ت(Convolution) زمنية (TC) لتعلم الارتباطات القصيرة الأمد بين الميزات المجاورة، ثم تم توسيعها إلى بنية هرمية كثيفة. في الطبقة الزمنية التالية رقم $k^{\mathrm{th}}$، ندمج مخرجات جميع الطبقات السابقة معًا: (1) تمتلك الطبقة الزمنية الأعمق مجال استقبال أكبر، مما يمكّنها من التقاط السياق الزمني الطويل من خلال انتقال المحتوى الهرمي. (2) يُعالج التكامل المشكلة المتعلقة بترجمة لغة الإشارة من زوايا مختلفة، بما في ذلك التعلّم التسلسلي القصير الأمد المدمج والطويل الأمد الموسّع. وأخيرًا، نستخدم خسارة CTC واستراتيجية دمج لتعلم التصنيف حسب الميزات وإنتاج الجملة المترجمة. تُظهر النتائج التجريبية على مBenchmarkين شهيرين لغة الإشارة، وهما PHOENIX وUSTC-ConSents، فعالية الطريقة المقترحة من حيث مقاييس متعددة.