نقطة تحويل: حل التعرف على المفاصل في تفاعلات اليدين والأشياء الصعبة لتقدير الوضعية ثلاثية الأبعاد بدقة

نقترح طريقة قوية ودقيقة لتقدير وضعيات اليدين الثلاثية الأبعاد في التفاعل القريب من صورة ملونة واحدة. هذا问题是 تحدي كبير، حيث قد تحدث إخفاءات كبيرة وكثير من الالتباسات بين المفاصل. تحل الأساليب الرائدة هذا المشكلة من خلال تقدير خريطة حرارة لكل مفصل، مما يتطلب حل مشكلتين في آن واحد: تحديد موقع المفاصل وتعرفها. في هذا العمل، نقترح فصل هاتين المهمتين بالاعتماد على شبكة النيورونات العصبية التلافيفية (CNN) لتحديد موقع المفاصل أولاً كنقاط رئيسية ثنائية الأبعاد، ثم استخدام التركيز الذاتي بين ميزات الشبكة عند هذه النقاط الرئيسية لتربطها بالمفصل اليدوي المقابل. يحقق العمارة الناتجة، التي نطلق عليها "متحول النقاط الرئيسية" (Keypoint Transformer)، كفاءة عالية حيث تتفوق على الأساليب الرائدة بأداء عالي باستخدام حوالي نصف عدد معلمات النموذج على مجموعة بيانات InterHand2.6M. كما نظهر أن بإمكانها توسيع نطاق استخدامها بسهولة لتقدير وضعية الجسم الثلاثية الأبعاد الذي يتم التعامل معه بواسطة يد أو يدين بآداء عالٍ. بالإضافة إلى ذلك، قمنا بإنشاء مجموعة بيانات جديدة تتضمن أكثر من 75,000 صورة ليدين تقومان بالتعامل مع جسم تم توثيقها بشكل كامل في ثلاثية الأبعاد وسنجعلها متاحة للجمهور.