HyperAIHyperAI
منذ 17 أيام

العودة أولاً، ثم الاستكشاف

Adrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O. Stanley, Jeff Clune
العودة أولاً، ثم الاستكشاف
الملخص

يتمثل الوعد الذي تقدمه التعلم المعزز في حل المشكلات التسلسلية المعقدة بشكل تلقائي من خلال تحديد دالة مكافأة عالية المستوى فقط. ومع ذلك، يواجه خوارزميات التعلم المعزز صعوبات عندما، كما هو الحال غالبًا، تكون المكافآت البسيطة والواضحة تُقدّم ملاحظات نادرة ومضللة. وتتطلب تجنب هذه المزالق استكشافًا شاملاً للبيئة، لكن إنشاء خوارزميات قادرة على القيام بذلك يظل أحد التحديات الأساسية في هذا المجال. نحن نفترض أن العائق الرئيسي أمام الاستكشاف الفعّال ينشأ من خوارزميات نسيان كيفية العودة إلى حالات تم زيارتها سابقًا (ما نسميه "الانفصال")، ومن فشلها في العودة أولاً إلى حالة ما قبل استكشافها (ما نسميه "الانحراف"). نقدّم "Go-Explore"، وهي عائلة من الخوارزميات، تتعامل مباشرة مع هذين التحديين من خلال مبادئ بسيطة تتمثل في تذكّر الحالات الواعدة صراحةً، ثم العودة إليها أولاً قبل البدء باستكشافها بشكل مقصود. وقد أظهرت "Go-Explore" قدرتها على حل جميع ألعاب آتاري التي لم تُحل من قبل، وتفوقت على أحدث الأداء في جميع الألعاب التي تتطلب استكشافًا صعبًا، مع تحسينات تصل إلى رتبة من القياسات في التحديات الكبرى مثل "مونتيسوما ريفينج" و"بيت فال" (Pitfall). كما أظهرنا أيضًا الإمكانات العملية لـ "Go-Explore" في مهمة روبوتية لجمع ووضع الأشياء تعتمد على مكافآت نادرة. علاوة على ذلك، أثبتنا أن إضافة سياسة مُحددة بالهدف يمكن أن تُحسّن بشكل إضافي كفاءة استكشاف "Go-Explore"، وتمكّنها من التعامل مع التقلبات العشوائية طوال عملية التدريب. وتشير النتائج الكبيرة في الأداء التي حققتها "Go-Explore" إلى أن المبادئ البسيطة المتمثلة في تذكّر الحالات، والعودة إليها، واستكشافها من هناك، تُشكّل نهجًا قويًا وعامًا للاستكشاف، وهي ملاحظة قد تكون حاسمة في إنشاء وكالات تعلّم ذكية حقيقية.