التعلم المُتَعَلِّمِي الذاتي التبادلي للتمييز المستمر لغة الإشارة

في السنوات الأخيرة، تقدّم التعلّم العميق في مجال التعرف على لغة الإشارة المستمرة القائمة على الفيديو (CSLR) تقدّمًا كبيرًا. حاليًا، يتكوّن التكوين الشبكي النموذجي لـ CSLR من وحدة بصرية تركز على المعلومات المكانية والزمنية القصيرة، تليها وحدة سياقية تركز على المعلومات الزمنية الطويلة، مع استخدام خسارة التصنيف الزمني المتصل (CTC) لتدريب الشبكة. ومع ذلك، نظرًا للقيود الناتجة عن قواعد السلسلة في عملية التغذية العكسية، يصبح من الصعب تعديل الوحدة البصرية لاستخراج ميزات بصرية مُحسّنة. ونتيجة لذلك، تُجبر الوحدة السياقية على التركيز فقط على تحسين المعلومات السياقية، بدلًا من تحقيق توازن بين المعلومات البصرية والسيناريوية بكفاءة. في هذا البحث، نقترح طريقة تُدعى التعلم التبادلي الذاتي (SMKD)، التي تُجبر الوحدتين البصرية والسياقية على التركيز على المعلومات القصيرة والطويلة على التوالي، وتعزّز من القدرة التمييزية لكليهما في آنٍ واحد. بشكل محدد، تشارك الوحدتان البصرية والسياقية في وزن فئّات التصنيف المقابلة لهما، وتُدرّسان معًا باستخدام خسارة CTC. علاوةً على ذلك، يُعدّ ظهور الظاهرة النابضة (الانفجار) شائعًا مع خسارة CTC. وعلى الرغم من أن هذه الظاهرة تساعدنا في اختيار عدد قليل من الإطارات الأساسية لكل مصطلح (gloss)، إلا أنها تؤدي إلى تجاهل الإطارات الأخرى ضمن نفس المصطلح، مما يسبب تشبعًا في ميزات البصر في المراحل المبكرة. ولتخفيف هذه الظاهرة، تم تطوير تقنية تقسيم المصطلح (gloss segmentation)، لتقليل التشبع في الوحدة البصرية. أجرينا تجارب على معياري CSLR: PHOENIX14 وPHOENIX14-T. وأظهرت النتائج التجريبية فعالية الطريقة المقترحة SMKD.