HyperAIHyperAI

Command Palette

Search for a command to run...

R3M: تمثيل بصري عام لمهام التلاعب بالروبوت

Suraj Nair Aravind Rajeswaran Vikash Kumar Chelsea Finn Abhinav Gupta

الملخص

نُدرِس كيف يمكن للتمثيلات البصرية التي تم تدريبها مسبقًا على بيانات فيديو بشرية متنوعة أن تمكّن من التعلّم الفعّال من حيث البيانات في مهام التلاعب الروبوتية اللاحقة. بشكل مُفصّل، نُدرّب تمثيلًا بصريًا باستخدام مجموعة بيانات الفيديو البشرية Ego4D، باستخدام مزيج من التعلّم التبايني الزمني، والتماثل بين الفيديو واللغة، وعُقوبة L1 لتشجيع تمثيلات نادرة ومتواضعة. يؤدي هذا التمثيل، المُسمّى R3M، إلى استخدامه كوحدة إدراك ثابتة (frozen) لتعلم السياسات اللاحقة. وعند تطبيقه على مجموعة مكوّنة من 12 مهمة تلاعب روبوتية مُحاكاة، نجد أن R3M يُحسّن نسبة نجاح المهام بنسبة تزيد عن 20% مقارنةً بالتدريب من الصفر، وبنسبة تزيد عن 10% مقارنةً بأفضل التمثيلات البصرية الحالية مثل CLIP وMoCo. علاوةً على ذلك، يمكّن R3M ذراع فرانكا إيميكا باندا من تعلّم طيف واسع من مهام التلاعب في بيئة حقيقية مزدحمة (شقة مزدحمة)، وذلك باستخدام فقط 20 عرضة تدريبية. يمكن الوصول إلى الكود والنماذج المُدرّبة مسبقًا من خلال الرابط: https://tinyurl.com/robotr3m.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp