منذ 11 أيام

استكشاف سلس للتعلم التعزيزي للروبوتات

Antonin Raffin, Jens Kober, Freek Stulp

الملخص

يُمكّن التعلم بالتعزيز (RL) الروبوتات من تعلّم المهارات من خلال التفاعل مع العالم الحقيقي. في الممارسة العملية، يؤدي الاستكشاف القائم على الخطوات غير المهيكل المستخدم في التعلم العميق بالتعزيز – والذي يُعدّ ناجحًا جدًا في البيئات المحاكاة – إلى أنماط حركية متقطعة واهتزة على الروبوتات الحقيقية. وتُسفر النتائج الناتجة عن السلوك الاهتزازي عن استكشاف غير فعّال، بل وقد تؤدي إلى أضرار في الروبوت نفسه. ولحل هذه المشكلات، نُعدّل طريقة الاستكشاف المُعتمد على الحالة (SDE) لتناسب الخوارزميات الحالية للتعلم العميق بالتعزيز. ولتمكين هذه المُعدّلات، نقترح تمديدَين لطريقة SDE الأصلية، باستخدام ميزات أكثر عمومية وإعادة عينة الضوضاء بشكل دوري، ما يؤدي إلى طريقة استكشاف جديدة تُعرف بـ "الاستكشاف المُعمّم المُعتمد على الحالة" (gSDE). وقد قُمنا بتقييم gSDE في بيئة المحاكاة على مهام التحكم المستمر باستخدام PyBullet، وكذلك مباشرة على ثلاث روبوتات حقيقية مختلفة: روبوت مُشَدّ بالوتر ومرن، وروبوت رباعي الأرجل، وعربة تحكم عن بعد (RC). وتسمح فترة عينة الضوضاء في gSDE بتحقيق توازن بين الأداء والانسيابية، ما يمكّن من تدريب الروبوتات مباشرة في البيئة الحقيقية دون فقدان الأداء. يُمكن الوصول إلى الشفرة المصدرية من خلال الرابط التالي: https://github.com/DLR-RM/stable-baselines3.