تقسيم الأجسام ثلاثية الأبعاد غير المعروفة من الصور العميقة الحقيقية باستخدام Mask R-CNN مدرب على بيانات مصطنعة

قدرت تقسيم الأشياء غير المعروفة في الصور ثلاثية الأبعاد لديها إمكانات لتعزيز مهارات الروبوتات في الإمساك وتتبع الأشياء. أظهرت البحوث الحديثة في رؤية الحاسوب أن يمكن تدريب Mask R-CNN على تقسيم فئات معينة من الأشياء في الصور RGB عند توفر قواعد بيانات كبيرة تم تصنيفها يدويًا. ومع ذلك، فإن إنشاء هذه القواعد البيانات يستغرق وقتًا طويلاً، لذلك نقوم بالتدريب باستخدام صور عمق اصطناعية. يستخدم العديد من الروبوتات حاليًا أجهزة استشعار العمق، وتشير النتائج الحديثة إلى أن التدريب على بيانات العمق الاصطناعية يمكن أن ينتقل بنجاح إلى العالم الحقيقي. نقدم طريقة لإنشاء قاعدة بيانات آليًا ونولد بسرعة قاعدة بيانات تدريب اصطناعية تتكون من 50,000 صورة عمق و320,000 قناع شكل باستخدام كومة محاكاة لنموذج CAD ثلاثي الأبعاد. نقوم بتدريب نسخة معدلة من Mask R-CNN مع التنوع النطاقي على القاعدة البيانات المولدة لأداء تقسيم الحالات دون الحاجة إلى بيانات مصنفة يدويًا، ونقيم الشبكة المدربة، والتي نشير إليها باسم Synthetic Depth (SD) Mask R-CNN، على مجموعة من الصور الحقيقية ذات الدقة العالية للعمق التي تحتوي على أشياء ذات هندسة متغيرة بشكل كبير ومكدسة بكثافة. يتفوق SD Mask R-CNN على أسس تجميع السحابة النقطية بنسبة 15% مطلقة في الدقة المتوسطة و20% في الاستدعاء المتوسط على مقاييس COCO، ويحقق مستويات أداء مشابهة لنظام Mask R-CNN الذي تم تدريبه على قاعدة بيانات RGB ضخمة تم تصنيفها يدويًا ومن ثم تعديله باستخدام صور حقيقية من الإعداد التجريبي. نقوم بتطبيق النموذج في خط أنابيب الإمساك الخاص بالحالات لتأكيد فائدته في تطبيق روبوتي. الرمز البرمجي والقاعدة البيانات التدريبية الاصطناعية والمادة الإضافية متاحة على الرابط https://bit.ly/2letCuE.