BB8: طريقة قابلة للتوسع، دقيقة، مقاومة للاعتراض الجزئي لتنبؤ وضعيات الأشياء الصعبة ثلاثية الأبعاد دون استخدام العمق

نقدم طريقة جديدة للكشف عن الأشياء ثلاثية الأبعاد وتقدير وضعها من الصور الملونة فقط. نبدأ باستخدام التقسيم لاكتشاف الأشياء ذات الاهتمام في البعدين حتى في وجود التغطيات الجزئية والخلفية المعقدة. على عكس الأساليب الحديثة القائمة على اللوحة، نعتمد على نهج "شامل" (Holistic): نطبق على الأشياء المكتشفة شبكة عصبية تلافيفية (CNN) تم تدريبها لتوقع وضعياتها الثلاثية الأبعاد على شكل إسقاطات ثنائية الأبعاد للزوايا صناديق الحدود الثلاثية الأبعاد الخاصة بها. ومع ذلك، فإن هذا ليس كافياً لمعالجة الأشياء من مجموعة البيانات T-LESS الحديثة: هذه الأشياء تظهر محور تناظر دوار، وتشابه صورتين لنفس الشيء تحت وضعيات مختلفة يجعل تدريب الشبكة العصبية التلافيفية صعباً. نحل هذه المشكلة بتحديد نطاق الوضعيات المستخدمة في التدريب، وبإدخال تصنيف لاكتشاف نطاق الوضعية في وقت التشغيل قبل تقديرها. كما نستخدم خطوة اختيارية إضافية لتحسين الوضعيات المتوقعة. لقد أحسنا الحالة الفنية الحالية لمجموعة البيانات LINEMOD من 73.7٪ إلى 89.3٪ من الإطارات RGB المسجلة بشكل صحيح. كما أننا أول من يبلغ عن النتائج لمجموعة البيانات Occlusion باستخدام الصور الملونة فقط. حصلنا على نسبة 54٪ من الإطارات التي تمر عبر معيار Pose 6D بمتوسطٍ على عدة سلاسل زمنية من مجموعة البيانات T-LESS، بالمقارنة مع نسبة 67٪ للحالة الفنية الحالية نفسها والتي تستعمل كلًا من اللون والعمق. النهج الكامل قابل للتوسع أيضًا، حيث يمكن تدريب شبكة واحدة على عدة أشياء في آن واحد.