شبكة عصبية عميقة قابلة للتدريب من الطرف إلى الطرف للكشف عن الإمساك الروبوتية والتقسيم الدلالي من RGB

في هذه الدراسة، نقدّم معمارية جديدة قابلة للتدريب من الطرف إلى الطرف تعتمد على الشبكات العصبية التلافيفية (CNN) لتوفير نتائج عالية الجودة للكشف عن القبضات، وتُعد مناسبة لمشبك لوحين متوازيين، وكذلك لتقسيم الدلالي (semantic segmentation). وباستخدام هذه المعمارية، نقترح وحدة تحسين جديدة تستفيد من نتائج الكشف عن القبضات والتقسيم الدلالي التي تم حسابها سابقًا، وتعزز دقة الكشف عن القبضات بشكل إضافي. وتُظهر الشبكة المقترحة أداءً متفوقًا على مستوى الحالة الحالية (state-of-the-art) في مجموعتي بيانات شهيرتين للكشف عن القبضات، وهما كورنيل وجاكارد. كمساهمة إضافية، نقدّم توسيعًا جديدًا لمجموعة بيانات OCID، مما يجعل من الممكن تقييم أداء الكشف عن القبضات في مشاهد صعبة للغاية. وباستخدام هذه المجموعة، نُظهر أن التقسيم الدلالي يمكن استخدامه أيضًا لربط مرشحي القبضات بفئات الكائنات، ما يمكّن من اختيار كائنات محددة في المشهد.