R3M: تمثيل بصري عام لمهام التلاعب بالروبوت

نُدرِس كيف يمكن للتمثيلات البصرية التي تم تدريبها مسبقًا على بيانات فيديو بشرية متنوعة أن تمكّن من التعلّم الفعّال من حيث البيانات في مهام التلاعب الروبوتية اللاحقة. بشكل مُفصّل، نُدرّب تمثيلًا بصريًا باستخدام مجموعة بيانات الفيديو البشرية Ego4D، باستخدام مزيج من التعلّم التبايني الزمني، والتماثل بين الفيديو واللغة، وعُقوبة L1 لتشجيع تمثيلات نادرة ومتواضعة. يؤدي هذا التمثيل، المُسمّى R3M، إلى استخدامه كوحدة إدراك ثابتة (frozen) لتعلم السياسات اللاحقة. وعند تطبيقه على مجموعة مكوّنة من 12 مهمة تلاعب روبوتية مُحاكاة، نجد أن R3M يُحسّن نسبة نجاح المهام بنسبة تزيد عن 20% مقارنةً بالتدريب من الصفر، وبنسبة تزيد عن 10% مقارنةً بأفضل التمثيلات البصرية الحالية مثل CLIP وMoCo. علاوةً على ذلك، يمكّن R3M ذراع فرانكا إيميكا باندا من تعلّم طيف واسع من مهام التلاعب في بيئة حقيقية مزدحمة (شقة مزدحمة)، وذلك باستخدام فقط 20 عرضة تدريبية. يمكن الوصول إلى الكود والنماذج المُدرّبة مسبقًا من خلال الرابط: https://tinyurl.com/robotr3m.