PoseCNN: شبكة عصبية تقنية التعلم العميق لتقدير وضعية الكائنات الستة الأبعاد في المشاهد المزدحمة

تقدير وضعية الأشياء المعروفة في الفضاء الستة أبعاد مهم للروبوتات لكي تتفاعل مع العالم الحقيقي. يشكل هذا التحدي صعوبة بسبب تنوع الأشياء وكذلك التعقيد الناجم عن الفوضى والاخفاء بين الأشياء في المشهد. في هذا العمل، نقدم PoseCNN، شبكة عصبية ارتباطية جديدة لتقدير وضعية الأشياء في الفضاء الستة أبعاد. يقوم PoseCNN بتقدير الترجمة الثلاثية الأبعاد لجسم ما من خلال تحديد مركزه في الصورة وتوقع المسافة التي تفصله عن الكاميرا. يتم تقدير الدوران الثلاثي الأبعاد للجسم من خلال الانحدار إلى تمثيل الكوارتيون (Quaternion). كما نقدم دالة خسارة جديدة تمكن PoseCNN من التعامل مع الأجسام المتماثلة. بالإضافة إلى ذلك، نساهم بقاعدة بيانات فيديو واسعة النطاق لتقدير وضعية الأشياء في الفضاء الستة أبعاد تُعرف باسم قاعدة بيانات YCB-Video. توفر قاعدتنا البيانات وضعيات دقيقة للأجسام الستة أبعاد لـ 21 جسمًا من قاعدة بيانات YCB مرصودة في 92 مقطع فيديو تتضمن 133,827 إطارًا. نقوم بإجراء تجارب واسعة على قاعدة بيانات YCB-Video الخاصة بنا وعلى قاعدة بيانات OccludedLINEMOD لإظهار أن PoseCNN شديدة القوة أمام الاخفاء، قادرة على التعامل مع الأجسام المتماثلة، وتوفير تقدير دقيق للوضعية باستخدام صور اللون فقط كمدخلات. عند استخدام بيانات العمق لتكرار تقدير الوضعيات بشكل أكبر، يحقق نهجنا أفضل النتائج على قاعدة البيانات الصعبة OccludedLINEMOD. يمكن الوصول إلى كودنا وقاعدة البيانات الخاصة بنا عبر الرابط https://rse-lab.cs.washington.edu/projects/posecnn/.