نموذج واحد ليس كافيًا: التجميعات للتحديد المنفصل للغة الإشارة
في هذه الورقة البحثية، نتعمق في مجال اعتراف لغة الإشارة، مع التركيز على اعتراف الإشارات المنفصلة. يتم تعريف المهمة كمشكلة تصنيف، حيث يتم التعرف على تسلسل من الإطارات (أي الصور) كواحدة من الإشارات المعطاة بلغة الإشارة. نقوم بتحليل نهجين يعتمدان على المظهر: I3D وTimeSformer، بالإضافة إلى نهج واحد يعتمد على الوضعية: SPOTER. يتم تدريب النهج التي تعتمد على المظهر على عدة وسائط بيانات مختلفة، بينما تُقيّم أداء SPOTER على أنواع مختلفة من المعالجة المسبقة. وتم اختبار جميع الأساليب على مجموعتي بيانات متاحتين للعامة: AUTSL وWLASL300. وقد قمنا بتجريب تقنيات التجميع لتحقيق نتائج جديدة من الدرجة المتطورة (state-of-the-art) بدرجة دقة تبلغ 73.84% على مجموعة بيانات WLASL300، باستخدام طريقة تحسين CMA-ES للعثور على معاملات الوزن المثلى للجمع. علاوةً على ذلك، نقدّم تقنية تجميع قائمة على نموذج Transformer، ونسميها "Neural Ensembler".