تحسين أداء التعرف على الإيماءات اليدوية الديناميكية الأحادية النمط من خلال التدريب متعدد النماذج

نقدم نهجًا فعالًا للاستفادة من المعرفة المستمدة من عدة أوضاع في تدريب شبكات العصبونات三维卷积 (3D-CNNs) لأداء مهام التعرف على الإيماءات اليدوية الديناميكية. بدلاً من دمج المعلومات متعددة الأوضاع بشكل صريح، وهو أمر شائع في العديد من الأساليب الرائدة، نقترح إطار عمل مختلف حيث ندمج معرفة الأوضاع المتعددة في شبكات فردية بحيث يمكن لكل شبكة أحادية الوضع تحقيق أداء أفضل. بصفة خاصة، نخصص شبكات منفصلة لكل وضع متاح ونفرض عليها التعاون والتعلم لتطوير شبكات ذات معاني مشتركة وتمثيلات أفضل. نقدم خسارة "المحاذاة الدلالية الزمانية-المكانية" (SSA) لمحاذاة محتوى الخصائص من الشبكات المختلفة. بالإضافة إلى ذلك، نقوم بتقييد هذه الخسارة باستخدام معامل التنظيم المقترح لدينا "معامل التنظيم المحوري" (focal regularization parameter) لتجنب نقل المعرفة السلبي. تظهر النتائج التجريبية أن إطار العمل الخاص بنا يحسن دقة التعرف أثناء الاختبار للشبكات أحادية الوضع، ويقدم أداءً رائدًا في مجموعة متنوعة من قواعد بيانات التعرف على الإيماءات اليدوية الديناميكية.请注意,我已将“三维卷积”翻译为“العصبونات ثلاثية الأبعاد”以保持专业术语的一致性和准确性。如果需要进一步调整,请告知。