HyperAIHyperAI

Command Palette

Search for a command to run...

العودة أولاً، ثم الاستكشاف

Adrien Ecoffet Joost Huizinga Joel Lehman Kenneth O. Stanley Jeff Clune

الملخص

يتمثل الوعد الذي تقدمه التعلم المعزز في حل المشكلات التسلسلية المعقدة بشكل تلقائي من خلال تحديد دالة مكافأة عالية المستوى فقط. ومع ذلك، يواجه خوارزميات التعلم المعزز صعوبات عندما، كما هو الحال غالبًا، تكون المكافآت البسيطة والواضحة تُقدّم ملاحظات نادرة ومضللة. وتتطلب تجنب هذه المزالق استكشافًا شاملاً للبيئة، لكن إنشاء خوارزميات قادرة على القيام بذلك يظل أحد التحديات الأساسية في هذا المجال. نحن نفترض أن العائق الرئيسي أمام الاستكشاف الفعّال ينشأ من خوارزميات نسيان كيفية العودة إلى حالات تم زيارتها سابقًا (ما نسميه "الانفصال")، ومن فشلها في العودة أولاً إلى حالة ما قبل استكشافها (ما نسميه "الانحراف"). نقدّم "Go-Explore"، وهي عائلة من الخوارزميات، تتعامل مباشرة مع هذين التحديين من خلال مبادئ بسيطة تتمثل في تذكّر الحالات الواعدة صراحةً، ثم العودة إليها أولاً قبل البدء باستكشافها بشكل مقصود. وقد أظهرت "Go-Explore" قدرتها على حل جميع ألعاب آتاري التي لم تُحل من قبل، وتفوقت على أحدث الأداء في جميع الألعاب التي تتطلب استكشافًا صعبًا، مع تحسينات تصل إلى رتبة من القياسات في التحديات الكبرى مثل "مونتيسوما ريفينج" و"بيت فال" (Pitfall). كما أظهرنا أيضًا الإمكانات العملية لـ "Go-Explore" في مهمة روبوتية لجمع ووضع الأشياء تعتمد على مكافآت نادرة. علاوة على ذلك، أثبتنا أن إضافة سياسة مُحددة بالهدف يمكن أن تُحسّن بشكل إضافي كفاءة استكشاف "Go-Explore"، وتمكّنها من التعامل مع التقلبات العشوائية طوال عملية التدريب. وتشير النتائج الكبيرة في الأداء التي حققتها "Go-Explore" إلى أن المبادئ البسيطة المتمثلة في تذكّر الحالات، والعودة إليها، واستكشافها من هناك، تُشكّل نهجًا قويًا وعامًا للاستكشاف، وهي ملاحظة قد تكون حاسمة في إنشاء وكالات تعلّم ذكية حقيقية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp