HyperAIHyperAI
منذ 9 أيام

تقرير فني حول التدريب الدقيق لنماذج تمييز لغة الإشارة

Maxim Novopoltsev, Leonid Verkhovtsev, Ruslan Murtazin, Dmitriy Milevich, Iuliia Zemtsova
تقرير فني حول التدريب الدقيق لنماذج تمييز لغة الإشارة
الملخص

تمثيل الإشارة (SLR) هو مهمة أساسية لكنها صعبة، نظرًا لأن لغة الإشارة تُنفَّذ من خلال حركات يد سريعة ومعقدة، ووضعية الجسم، وحتى تعابير الوجه. في هذه الدراسة، ركزنا على استكشاف سؤالين: كيف تُسهم عملية التخصيص (fine-tuning) على مجموعات بيانات من لغات إشارة أخرى في تحسين جودة تمييز الإشارات، وهل من الممكن تنفيذ تمييز الإشارات في الوقت الفعلي دون استخدام وحدة معالجة الرسومات (GPU). تم استخدام ثلاث مجموعات بيانات لغات مختلفة (لغة الإشارة الأمريكية WLASL، واللغة التركية - AUTSL، واللغة الروسية - RSL) لاختبار النماذج. وبلغ متوسط سرعة النظام 3 تنبؤات في الثانية، وهو ما يلبي المتطلبات المطلوبة لسيناريو العمل في الوقت الفعلي. سيُعد هذا النموذج (النموذج الأولي) مفيدًا للأشخاص ذوي الإعاقات السمعية أو النطقية للتحدث مع الآخرين عبر الإنترنت. كما قمنا بدراسة تأثير التدريب الإضافي للنموذج بلغة إشارة أخرى على جودة التمييز. أظهرت النتائج أن التدريب الإضافي للنموذج على بيانات لغة إشارة أخرى يؤدي غالبًا إلى تحسين جودة تمييز الإشارات. كما نوفر رمزًا مصدريًا (code) يُمكّن من إعادة إنتاج تجارب تدريب النموذج، وتحويل النماذج إلى التنسيق ONNX، وإجراء الاستنتاج (inference) لتمييز الإشارات في الوقت الفعلي.