Command Palette
Search for a command to run...
PoseCNN: شبكة عصبية تلافيفية لتقدير وضع الجسم الستي في المشاهد المزدحمة
PoseCNN: شبكة عصبية تلافيفية لتقدير وضع الجسم الستي في المشاهد المزدحمة
Xiang Yu Schmidt Tanner Narayanan Venkatraman Fox Dieter
الملخص
يُعد تقدير الوضع الستي (6D) للأجسام المعروفة أمرًا مهمًا لتمكين الروبوتات من التفاعل مع العالم الحقيقي. ويُعد هذا التحدي صعبًا بسبب تنوع الأجسام، فضلًا عن تعقيد المشهد الناتج عن التراكم (الازدحام) والتغطية المتبادلة بين الأجسام. في هذه الدراسة، نقدّم PoseCNN، وهو شبكة عصبية تلافيفية جديدة مُصممة لتقدير الوضع الستي للجسم. حيث يُقدّر PoseCNN الانتقال ثلاثي الأبعاد للجسم من خلال تحديد مركزه في الصورة وتوقع بُعده عن الكاميرا. كما يُقدّر الاتجاه الثلاثي الأبعاد للجسم من خلال الانحدار نحو تمثيل باستخدام المُعادل (Quaternion). بالإضافة إلى ذلك، نقدّم دالة خسارة جديدة تُمكّن PoseCNN من التعامل مع الأجسام المتماثلة. وبالمثل، نقدّم مجموعة بيانات فيديو كبيرة النطاق لتقدير الوضع الستي، تُسمّى مجموعة بيانات YCB-Video. وتوفّر هذه المجموعة قيمًا دقيقة للوضع الستي لـ 21 جسمًا من مجموعة بيانات YCB، تم رصدها في 92 فيديو يضمّ 133,827 إطارًا. وقد أجرينا تجارب واسعة النطاق على مجموعة بيانات YCB-Video ومجموعة بيانات OccludedLINEMOD، لنتبيّن أن PoseCNN يتمتع بمقاومة عالية للتغطية، ويمكنه التعامل مع الأجسام المتماثلة، ويُقدّم تقديرًا دقيقًا للوضع باستخدام صور ألوان فقط كمدخلات. وباستخدام بيانات العمق لتحسين الوضع بشكل إضافي، تُحقّق طريقة العمل لدينا نتائج من الطراز الأول على مجموعة بيانات OccludedLINEMOD الصعبة. يُمكن الاطلاع على الكود والبيانات الخاصة بنا عبر الرابط التالي: https://rse-lab.cs.washington.edu/projects/posecnn/.