HyperAIHyperAI
منذ 17 أيام

ميتا وورلد: منصة تقييم وBenchmark للتعلم المعزز متعدد المهام والتعلم المعزز المتعدد المهام

Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Avnish Narayan, Hayden Shively, Adithya Bellathur, Karol Hausman, Chelsea Finn, Sergey Levine
ميتا وورلد: منصة تقييم وBenchmark للتعلم المعزز متعدد المهام والتعلم المعزز المتعدد المهام
الملخص

يمكن لخوارزميات التعلم التكراري الميتا (Meta-reinforcement learning) تمكين الروبوتات من اكتساب مهارات جديدة بشكل أسرع بكثير، من خلال الاستفادة من الخبرة السابقة لتعلم كيفية التعلم. ومع ذلك، يتركز معظم الأبحاث الحالية في مجال التعلم التكراري الميتا على توزيعات مهام ضيقة جدًا. على سبيل المثال، يُستخدم في معيار شائع لاختبار التعلم التكراري الميتا سرعات تشغيل مختلفة لروبوت مُحاكى كمهام مختلفة. عندما يتم تدريب السياسات على توزيعات مهام ضيقة جدًا كهذه، فإنها لا يمكنها أبدًا التعميم لتمكين اكتساب مهام جديدة تمامًا بسرعة. وبالتالي، إذا كان الهدف من هذه الطرق هو تمكين اكتساب سلوك جديد بالكامل بشكل أسرع، فيجب تقييمها على توزيعات مهام واسعة بما يكفي لتمكين التعميم على سلوك جديد. في هذه الورقة، نقترح معيارًا محاكى مفتوح المصدر للتعلم التكراري الميتا والتعلم متعدد المهام، يتضمن 50 مهمة مختلفة في التلاعب بالروبوتات. هدفنا هو تمكين تطوير خوارزميات قادرة على التعميم، مما يسرع من اكتساب مهام جديدة غير مُدرَّسة مسبقًا. قمنا بتقييم 7 خوارزميات حديثة ومتقدمة في مجال التعلم التكراري الميتا والتعلم متعدد المهام على هذه المهام. كان من المفاجئ أن كل مهمة ومتغيراتها (مثل تغيير مواقع الأجسام) يمكن تعلّمها بنجاح معقول، إلا أن هذه الخوارزميات تعاني من صعوبة في التعلم متعدد المهام في آن واحد، حتى مع وجود عشر مهام تدريب مختلفة فقط. ويوفر تحليلنا والبيئة المفتوحة المصدر التي نقدمها طريقًا لبحوث مستقبلية في التعلم متعدد المهام والتعلم الميتا، التي يمكن أن تُمكّن من تعميم معنوي حقيقي، وبالتالي كشف الإمكانات الكاملة لهذه الأساليب.

ميتا وورلد: منصة تقييم وBenchmark للتعلم المعزز متعدد المهام والتعلم المعزز المتعدد المهام | أحدث الأوراق البحثية | HyperAI