HyperAIHyperAI
منذ 2 أشهر

الانحدار البكسلي: تقدير وضع اليد ثلاثي الأبعاد عبر التمثيل المكاني والمنشئ القابل للمفاضلة

Xingyuan Zhang; Fuhai Zhang
الانحدار البكسلي: تقدير وضع اليد ثلاثي الأبعاد عبر التمثيل المكاني والمنشئ القابل للمفاضلة
الملخص

تقدير وضع اليد ثلاثي الأبعاد من صورة عمق واحدة هو موضوع أساسي في رؤية الحاسوب وتفاعل الإنسان مع الحاسوب. رغم أن ظهور طرق التعلم العميق قد أدى إلى زيادة كبيرة في الدقة، إلا أن المشكلة لا تزال صعبة الحل بسبب البنية المعقدة لليد البشرية. الطرق الحالية التي تعتمد على التعلم العميق إما تخسر معلومات المكان الخاصة ببنية اليد أو تفتقر إلى إشراف مباشر على إحداثيات المفاصل. في هذا البحث، نقترح طريقة جديدة للانحدار البكسلي (Pixel-wise Regression)، والتي تستعمل تمثيل الشكل المكاني (Spatial-Form Representation - SFR) ومحوّل قابل للمفاضلة (Differentiable Decoder - DD) لحل هذين المشكلتين. لاستخدام طريقتنا، نقوم ببناء نموذج، حيث نصمم تمثيلًا مكانيًا خاصًا (SFR) ومحوّله المرتبط به (DD) يقسم إحداثيات المفاصل الثلاثية الأبعاد إلى جزأين: الإحداثيات المستوية وإحداثيات العمق، ويستخدم وحدتين تسميان الانحدار المستوي (Plane Regression - PR) والانحدار العمقي (Depth Regression - DR) للتعامل معهما على حدة. نجري تجربة تقليصية لإظهار أن الطريقة المقترحة حققت نتائج أفضل من الطرق السابقة. كما نقوم باستكشاف كيفية تأثير استراتيجيات التدريب المختلفة على التمثيلات المكانية المُتعلمة والنتائج. أظهرت التجارب على ثلاثة مجموعات بيانات عامة أن نموذجنا يضاهي النماذج الرائدة الحالية، وأنه يمكن أن يقلل من خطأ الوسط لإحداثيات المفاصل الثلاثية الأبعاد بنسبة 25% في أحد هذه المجموعات.

الانحدار البكسلي: تقدير وضع اليد ثلاثي الأبعاد عبر التمثيل المكاني والمنشئ القابل للمفاضلة | أحدث الأوراق البحثية | HyperAI