SAM2Act: دمج نموذج الأساس البصري مع بنية ذاكرة لمهام التلاعب الروبوتي

تتطلب أنظمة التلاعب الروبوتية العاملة في بيئات متنوعة وديناميكية ثلاث قدرات حرجة: التفاعل متعدد المهام، والقدرة على التعميم على السيناريوهات غير المرئية، والذاكرة المكانية. وعلى الرغم من التقدم الكبير المحرز في مجال التلاعب الروبوتي، فإن النماذج الحالية غالبًا ما تفشل في التعميم أمام التغيرات البيئية المعقدة ومواجهة المهام التي تعتمد على الذاكرة. لسد هذه الفجوة، نقدم SAM2Act، وهي سياسة قائمة على نموذج التحويل (Transformer) للروبوتات تعتمد على رؤى متعددة، وتستفيد من تقنية التكبير متعدد الدقة مع تمثيلات بصرية مستمدة من نماذج الأساس الكبيرة. تحقق SAM2Act معدل نجاح متوسط قدره 86.8% في المهام الـ18 ضمن معيار RLBench، وتُظهر قدرة قوية على التعميم في معيار The Colosseum، مع فجوة أداء لا تتجاوز 4.3% حتى في ظل اضطرابات بيئية متنوعة. وبما يُبنى على هذه الأساس، نقترح SAM2Act+، وهي بنية تعتمد على الذاكرة مستوحاة من SAM2، وتضم خزانة ذاكرة، ومحول (Encoder)، وآلية انتباه لتعزيز الذاكرة المكانية. وللإجابة على الحاجة إلى تقييم المهام التي تعتمد على الذاكرة، نقدّم MemoryBench، وهو معيار جديد مصمم لتقييم الذاكرة المكانية واسترجاع الإجراءات في التلاعب الروبوتي. تحقق SAM2Act+ معدل نجاح متوسط قدره 94.3% في المهام القائمة على الذاكرة ضمن MemoryBench، متفوقة بشكل كبير على النماذج الحالية، وتمديد حدود الأنظمة الروبوتية القائمة على الذاكرة. صفحة المشروع: sam2act.github.io.