GestureGAN لترجمة الإشارات اليدوية إلى إشارات يدوية في البيئة الحقيقية

ترجمة الإشارات اليدوية إلى إشارات يدوية في البيئة الحقيقية هي مهمة صعبة نظرًا لأن الإشارات اليدوية يمكن أن تكون لها أوضاع و أحجام و مواقع عشوائية بالإضافة إلى التغطية الذاتية. لذلك، تتطلب هذه المهمة فهمًا رفيع المستوى للعلاقة بين الإشارة اليدوية المصدر والإشارة اليدوية الهدف. لمعالجة هذه المشكلة، نقترح شبكة توليدية متنافسة جديدة لإشارات اليد (GestureGAN). تتكون الشبكة GestureGAN من مولد واحد $G$ ومميز $D$، حيث يتم توفير صورة يد شرطية كمدخل وصورة هيكل عظمي لليد الهدف. تستفيد الشبكة GestureGAN من المعلومات المتعلقة بهيكل العظام بشكل صريح، وتتعلم الخريطة بين الإشارات اليدوية من خلال خسارةين جديدتين هما: خسارة اللون وخسارة التناسق الدوري. تقوم الخسارة المقترحة للون بمعالجة مشكلة "التلوث القناة" أثناء انتقال التدرجات بالعكس. بالإضافة إلى ذلك، نقدم مقياس فريشيه لمسافة ريزنت (FRD) لتقييم جودة الصور المولدة. تظهر التجارب الواسعة على مجموعتي بيانات قياسيتين مستخدمتين على نطاق واسع أن الشبكة GestureGAN المقترحة تحقق أداءً متقدمًا على مستوى العالم في مهمة ترجمة الإشارات اليدوية غير المقيدة. وفي الوقت نفسه، تكون الصور المولدة ذات جودة عالية وواقعية بشكل كبير، مما يسمح باستخدامها كتوسيع بيانات لتحسين أداء تصنيف الإشارات اليدوية. يمكن الوصول إلى نموذجنا وكود البرمجة الخاص بنا عبر الرابط:https://github.com/Ha0Tang/GestureGAN.