منذ 6 أشهر

الملخص

نُدرِس كيف يمكن للتمثيلات البصرية التي تم تدريبها مسبقًا على بيانات فيديو بشرية متنوعة أن تمكّن من التعلّم الفعّال من حيث البيانات في مهام التلاعب الروبوتية اللاحقة. بشكل مُفصّل، نُدرّب تمثيلًا بصريًا باستخدام مجموعة بيانات الفيديو البشرية Ego4D، باستخدام مزيج من التعلّم التبايني الزمني، والتماثل بين الفيديو واللغة، وعُقوبة L1 لتشجيع تمثيلات نادرة ومتواضعة. يؤدي هذا التمثيل، المُسمّى R3M، إلى استخدامه كوحدة إدراك ثابتة (frozen) لتعلم السياسات اللاحقة. وعند تطبيقه على مجموعة مكوّنة من 12 مهمة تلاعب روبوتية مُحاكاة، نجد أن R3M يُحسّن نسبة نجاح المهام بنسبة تزيد عن 20% مقارنةً بالتدريب من الصفر، وبنسبة تزيد عن 10% مقارنةً بأفضل التمثيلات البصرية الحالية مثل CLIP وMoCo. علاوةً على ذلك، يمكّن R3M ذراع فرانكا إيميكا باندا من تعلّم طيف واسع من مهام التلاعب في بيئة حقيقية مزدحمة (شقة مزدحمة)، وذلك باستخدام فقط 20 عرضة تدريبية. يمكن الوصول إلى الكود والنماذج المُدرّبة مسبقًا من خلال الرابط: https://tinyurl.com/robotr3m.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار