HyperAIHyperAI

Command Palette

Search for a command to run...

SAM2Act: دمج نموذج الأساس البصري مع بنية ذاكرة لمهام التلاعب الروبوتي

Haoquan Fang Markus Grotz Wilbert Pumacay Yi Ru Wang Dieter Fox Ranjay Krishna Jiafei Duan

الملخص

تتطلب أنظمة التلاعب الروبوتية العاملة في بيئات متنوعة وديناميكية ثلاث قدرات حرجة: التفاعل متعدد المهام، والقدرة على التعميم على السيناريوهات غير المرئية، والذاكرة المكانية. وعلى الرغم من التقدم الكبير المحرز في مجال التلاعب الروبوتي، فإن النماذج الحالية غالبًا ما تفشل في التعميم أمام التغيرات البيئية المعقدة ومواجهة المهام التي تعتمد على الذاكرة. لسد هذه الفجوة، نقدم SAM2Act، وهي سياسة قائمة على نموذج التحويل (Transformer) للروبوتات تعتمد على رؤى متعددة، وتستفيد من تقنية التكبير متعدد الدقة مع تمثيلات بصرية مستمدة من نماذج الأساس الكبيرة. تحقق SAM2Act معدل نجاح متوسط قدره 86.8% في المهام الـ18 ضمن معيار RLBench، وتُظهر قدرة قوية على التعميم في معيار The Colosseum، مع فجوة أداء لا تتجاوز 4.3% حتى في ظل اضطرابات بيئية متنوعة. وبما يُبنى على هذه الأساس، نقترح SAM2Act+، وهي بنية تعتمد على الذاكرة مستوحاة من SAM2، وتضم خزانة ذاكرة، ومحول (Encoder)، وآلية انتباه لتعزيز الذاكرة المكانية. وللإجابة على الحاجة إلى تقييم المهام التي تعتمد على الذاكرة، نقدّم MemoryBench، وهو معيار جديد مصمم لتقييم الذاكرة المكانية واسترجاع الإجراءات في التلاعب الروبوتي. تحقق SAM2Act+ معدل نجاح متوسط قدره 94.3% في المهام القائمة على الذاكرة ضمن MemoryBench، متفوقة بشكل كبير على النماذج الحالية، وتمديد حدود الأنظمة الروبوتية القائمة على الذاكرة. صفحة المشروع: sam2act.github.io.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
SAM2Act: دمج نموذج الأساس البصري مع بنية ذاكرة لمهام التلاعب الروبوتي | مستندات | HyperAI