HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف سلس للتعلم التعزيزي للروبوتات

Antonin Raffin Jens Kober Freek Stulp

الملخص

يُمكّن التعلم بالتعزيز (RL) الروبوتات من تعلّم المهارات من خلال التفاعل مع العالم الحقيقي. في الممارسة العملية، يؤدي الاستكشاف القائم على الخطوات غير المهيكل المستخدم في التعلم العميق بالتعزيز – والذي يُعدّ ناجحًا جدًا في البيئات المحاكاة – إلى أنماط حركية متقطعة واهتزة على الروبوتات الحقيقية. وتُسفر النتائج الناتجة عن السلوك الاهتزازي عن استكشاف غير فعّال، بل وقد تؤدي إلى أضرار في الروبوت نفسه. ولحل هذه المشكلات، نُعدّل طريقة الاستكشاف المُعتمد على الحالة (SDE) لتناسب الخوارزميات الحالية للتعلم العميق بالتعزيز. ولتمكين هذه المُعدّلات، نقترح تمديدَين لطريقة SDE الأصلية، باستخدام ميزات أكثر عمومية وإعادة عينة الضوضاء بشكل دوري، ما يؤدي إلى طريقة استكشاف جديدة تُعرف بـ "الاستكشاف المُعمّم المُعتمد على الحالة" (gSDE). وقد قُمنا بتقييم gSDE في بيئة المحاكاة على مهام التحكم المستمر باستخدام PyBullet، وكذلك مباشرة على ثلاث روبوتات حقيقية مختلفة: روبوت مُشَدّ بالوتر ومرن، وروبوت رباعي الأرجل، وعربة تحكم عن بعد (RC). وتسمح فترة عينة الضوضاء في gSDE بتحقيق توازن بين الأداء والانسيابية، ما يمكّن من تدريب الروبوتات مباشرة في البيئة الحقيقية دون فقدان الأداء. يُمكن الوصول إلى الشفرة المصدرية من خلال الرابط التالي: https://github.com/DLR-RM/stable-baselines3.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
استكشاف سلس للتعلم التعزيزي للروبوتات | مستندات | HyperAI