مجموعة بيانات التعلم التعزيزي URLB
التاريخ
منذ 3 أعوام
رابط النشر
URLB تعني معيار التعلم التعزيزي غير الخاضع للإشراف، وهي مجموعة بيانات التعلم التعزيزي غير الخاضع للإشراف. يتكون URLB من مرحلتين: مرحلة ما قبل التدريب بدون مكافآت ومرحلة التكيف مع المهمة اللاحقة مع مكافآت خارجية. بناءً على مجموعة DeepMind Control Suite، توفر مجموعة البيانات هذه 12 مهمة تحكم مستمرة من ثلاثة مجالات للتقييم.