التعلم العميق لاكتشاف مرات القبض الروبوتية

نعتبر مشكلة الكشف عن القبضات الروبوتية في صورة RGB-D لمشهد يحتوي على أشياء. في هذا العمل، نطبق نهج التعلم العميق لحل هذه المشكلة، مما يتجنب تصميم الخصائص باليد الذي يستغرق وقتًا طويلاً. وهذا يعرض تحديين رئيسيين. أولاً، نحتاج إلى تقييم عدد ضخم من القبضات المرشحة. لجعل الكشف سريعًا وموثوقًا به، نقدم بنية متدرجة من خطوتين تتضمن شبكتين عميقتين، حيث يتم إعادة تقييم أفضل الاكتشافات من الأولى بواسطة الثانية. تحتوي الشبكة الأولى على عدد أقل من الخصائص، وهي أسرع في التشغيل ويمكنها إزالة القبضات المرشحة غير المحتملة بشكل فعال. أما الشبكة الثانية فهي تحتوي على عدد أكبر من الخصائص، وبالتالي تكون أبطأ ولكن يجب تشغيلها فقط على أفضل الاكتشافات القليلة. ثانيًا، نحتاج إلى التعامل بشكل جيد مع المدخلات متعددة الأوضاع (multimodal inputs)، ولذلك نقدم طريقة لتطبيق التنظيم الهيكلي على الأوزان بناءً على التنظيم الجماعي متعدد الأوضاع (multimodal group regularization). نثبت أن طريقتنا تتفوق على الطرق الرائدة سابقًا في مجال كشف القبضات الروبوتية وأنها يمكن استخدامها بنجاح لتنفيذ القبضات على منصتين روبيتيتين مختلفتين.