TCNet: التعرف على اللغة الإشارة المستمرة من المسارات والمناطق المرتبطة

يُعد التحدي الرئيسي في التعرف المستمر على لغة الإشارة (CSLR) هو التقاط التفاعلات الفضائية على المدى الطويل عبر الزمن من المدخلات المرئية بشكل فعّال. ولحل هذا التحدي، نقترح TCNet، وهي شبكة هجينة تُعد فعّالة في نمذجة المعلومات الفضائية-الزمنية من المسارات ومناطق الترابط. يحوّل وحدة المسار في TCNet الإطارات إلى مسارات مُحاذاة مكوّنة من رموز بصرية مستمرة. علاوة على ذلك، يتم تعلّم الانتباه الذاتي على طول المسار بالنسبة لكل رمز استعلام. وبذلك، يمكن لشبكتنا التركيز أيضًا على الأنماط الفضائية-الزمنية الدقيقة، مثل حركات الأصابع، في منطقة معينة تتحرك. أما وحدة الترابط في TCNet، فتستخدم آلية انتباه ديناميكية جديدة تُزيل المناطق غير ذات صلة في الإطارات. بالإضافة إلى ذلك، تُعيّن هذه الوحدة رموزًا مفتاحية وقيمية ديناميكية من المناطق المرتبطة لكل رمز استعلام. وتشكل هاتان الابتكاران تقليلًا كبيرًا في تكلفة الحساب واستهلاك الذاكرة. قمنا بإجراء تجارب على أربع مجموعات بيانات كبيرة: PHOENIX14 وPHOENIX14-T وCSL وCSL-Daily. وتُظهر نتائجنا أن TCNet تحقق باستمرار أداءً من الدرجة الأولى في المجال. على سبيل المثال، تفوقت على الحالة السابقة من الدرجة الأولى بنسبة 1.5% و1.0% في معدل خطأ الكلمات على مجموعتي PHOENIX14 وPHOENIX14-T على التوالي.