NBMOD: اعثر عليه وافهمه في خلفية ضوضائية

القدرة على الإمساك بالكائنات تمثل مهارة أساسية وضرورية للروبوتات، حيث تعتمد العديد من المهام مثل الترتيب والإمساك على هذه المهارة. ويشترط للإمساك الثابت القدرة على تحديد مواقع الإمساك المناسبة بشكل دقيق. ومع ذلك، فإن تحديد نقاط الإمساك المناسبة يُعد تحديًا كبيرًا نظرًا لتباين الأشكال، وتوزيع الكثافة المتنوع، والاختلافات الكبيرة في مركز الكتلة بين الكائنات المختلفة. في السنوات القليلة الماضية، قدم الباحثون العديد من الطرق لمعالجة المشكلات المذكورة أعلاه، وحققوا نتائج ممتازة على مجموعات بيانات عامة متاحة مثل مجموعة بيانات كورنيل (Cornell dataset) ومجموعة بيانات جاكوارد (Jacquard dataset). ولكن المشكلة تكمن في أن خلفيات مجموعتي بيانات كورنيل وجاكوارد بسيطة نسبيًا – غالبًا ما تكون لوحًا أبيضًا فقط، بينما في البيئات التشغيلية الواقعية، قد تكون الخلفيات معقدة ومشوهة بضوضاء. علاوةً على ذلك، في السيناريوهات الواقعية، غالبًا ما يحتاج الروبوت إلى إمساك أنواع محددة من الكائنات فقط. ولحل هذه المشكلات، قمنا بتطوير مجموعة بيانات كبيرة للكشف عن الإمساك تُسمى NBMOD: مجموعة بيانات متعددة الكائنات بخلفية مشوهة للكشف عن الإمساك، وتتألف من 31,500 صورة ملونة متعددة الأبعاد (RGB-D) لـ 20 نوعًا مختلفًا من الفواكه. ولا تزال مشكلة التنبؤ الدقيق بالزوايا تحديًا كبيرًا في مهام الكشف عن المربعات المحيطة الموجهة. ولحل هذه المشكلة، نقدم في هذا البحث آلية محاور الدوران (Rotation Anchor Mechanism - RAM). مع الأخذ بعين الاعتبار الطلب العالي على الزمن الحقيقي في الأنظمة الروبوتية، قمنا بتطوير سلسلة من الهياكل الخفيفة تُسمى RA-GraspNet (GraspNet مع محاور الدوران): RARA (الشبكة ذات محاور الدوران والانتباه الإقليمي)، RAST (الشبكة ذات محاور الدوران والمحول شبه التحويلي)، وRAGT (الشبكة ذات محاور الدوران والمحول العالمي). ومن بين هذه النماذج، حقق نموذج RAGT-3/3 دقة بلغت 99٪ على مجموعة بيانات NBMOD. ويمكن الوصول إلى مجموعة بيانات NBMOD والكود الخاص بنا عبر الرابط: https://github.com/kmittle/Grasp-Detection-NBMOD.