Command Palette
Search for a command to run...
التمييز بين المثيلات في الروبوتات باستخدام عدد قليل من التسميات للإمساك
التمييز بين المثيلات في الروبوتات باستخدام عدد قليل من التسميات للإمساك
Moshe Kimhi David Vainshtein Chaim Baskin Dotan Di Castro
الملخص
تعتمد قدرة الروبوتات على التلاعب بالكائنات بشكل كبير على مهاراتها في الإدراك البصري. في المجالات التي تتميز بمشاهد مزدحمة وتباين عالٍ في الكائنات، تتطلب معظم الطرق مجموعات بيانات مُعلّمة ضخمة، يتم تسميتها يدويًا بعناية، بهدف تدريب نماذج قادرة على الأداء. وبعد النشر، فإن التحدي المتمثل في التعميم على كائنات غير مألوفة يعني أن النموذج يجب أن يتطور بالتوازي مع بيئته. ولحل هذه المشكلة، نقترح إطارًا جديدًا يدمج بين التعلم شبه المراقب (SSL) والتعلم من خلال التفاعل (LTI)، مما يسمح للنموذج بتعلم التغيرات في المشهد من خلال الملاحظة، واستغلال الاتساق البصري رغم الفجوات الزمنية، دون الحاجة إلى بيانات منظمة لسلسلة تفاعلات. وبذلك، يستغل نهجنا البيانات الجزئية المُعلّمة من خلال التعلم الذاتي، ويُدمج السياق الزمني باستخدام تسلسلات وهمية تم إنشاؤها من صور ثابتة غير مُعلّمة. وقد قمنا بتوثيق أداء طريقة العمل على بenchmarkين شائعين، هما ARMBench mix-object-tote وOCID، حيث حققت الأداء الأفضل على مستوى الحالة الحالية. وبشكل ملحوظ، في ARMBench، تحقق لدينا قيمة AP50 قدرها 86.37، أي تحسّن يقارب 20٪ مقارنة بالعمل السابق، كما تم تحقيق نتائج متميزة في السيناريوهات التي تفتقر إلى التسمية، حيث بلغت قيمة AP50 84.89 باستخدام فقط 1٪ من البيانات المُعلّمة، مقابل 72 في النسخة الكاملة المُعلّمة المقدمة في ARMBench.