SHARP: تقسيم اليدين والذراعين باستخدام نطاق العمق المزيف لتحسين تقدير وضعية اليد ثلاثية الأبعاد والتعرف على الحركة من وجهة نظر الذات

تمثل وضعية اليد معلومات أساسية لتحديد الأفعال في المنظور الذاتي، حيث يتفاعل المستخدم مع الأشياء. نقترح تحسين تقدير وضعية اليد ثلاثية الأبعاد في المنظور الذاتي باستخدام الصور العمقية الوهمية (Pseudo-depth images) فقط من خلال الإطارات ذات اللون والعمق (RGB). من خلال دمج تقنيات التقدير العمقي للصورة الفردية ذات اللون والعمق (RGB) المتطورة حديثًا، نقوم بإنشاء تمثيلات عمق وهمية للإطارات واستخدام معرفة المسافة لفصل الأجزاء غير ذات الصلة من المشهد. يتم استخدام الخرائط العمقية الناتجة كأقنعة فصل للإطارات ذات اللون والعمق (RGB). تؤكد نتائج التجارب على مجموعة بيانات H2O الدقة العالية لتقدير وضعية اليد باستخدام طريقتنا في مهمة تحديد الأفعال. يتم معالجة وضعية اليد ثلاثية الأبعاد، بالإضافة إلى المعلومات المستخرجة من اكتشاف الأشياء، بواسطة شبكة تحديد الأفعال المستندة إلى المتحولات (Transformer-based action recognition network)، مما يؤدي إلى دقة تبلغ 91.73%، وهي أعلى من جميع الأساليب المتطورة الأخرى. تحقق تقديرات وضعية اليد ثلاثية الأبعاد أداءً تنافسيًا مع الأساليب الموجودة بخطأ وضع متوسط قدره 28.66 ملم. هذا الأسلوب يفتح آفاقًا جديدة لاستخدام معلومات المسافة في تقدير وضعية اليد ثلاثية الأبعاد في المنظور الذاتي دون الحاجة إلى أجهزة استشعار العمق.