TriHorn-Net: نموذج لتقدير وضعية اليد ثلاثية الأبعاد القائمة على العمق بدقة

أحرزت طرق تقدير وضعية اليد الثلاثية الأبعاد تقدماً ملحوظاً في الآونة الأخيرة. ومع ذلك، فإن دقة التقدير غالبًا ما تكون بعيدة عن المطلوب في تطبيقات العالم الحقيقي المحددة، مما يترك مجالاً واسعاً للتحسين. تقدم هذه الورقة نموذجاً جديداً يُدعى TriHorn-Net، يستخدم ابتكارات محددة لتحسين دقة تقدير وضعية اليد في الصور العميقة. الابتكار الأول هو تفكيك تقدير الوضعية اليدوية الثلاثية الأبعاد إلى تقدير مواقع المفاصل ثنائية الأبعاد في فضاء الصورة العميقة (UV)، وتقدير عمقها باستخدام خريطة انتباه مكملة. يمنع هذا التفكيك التقدير العددي للعمق، وهو مهمة أكثر صعوبة، من التأثير على تقديرات UV على مستوى التنبؤ والمستوى المميزات. والابتكار الثاني هو PixDropout، والذي، إلى حد معرفتنا، يُعد أول طريقة لتعزيز البيانات القائمة على المظهر للصور العميقة لليد. أظهرت النتائج التجريبية أن النموذج المقترح يتفوق على أحدث الطرق في ثلاث مجموعات بيانات معيارية عامة. يمكن الوصول إلى التنفيذ الخاص بنا عبر الرابط: https://github.com/mrezaei92/TriHorn-Net.