بيئة التعلم في نت هاك

تقدم خوارزميات التعلم التعزيزي (RL) يسير جنبًا إلى جنب مع تطوير بيئات تحدي صعبة تختبر حدود الطرق الحالية. بينما تكون البيئات الحالية للتعلم التعزيزي إما معقدة بما يكفي أو تعتمد على محاكاة سريعة، إلا أنها نادراً ما تكون كلاهما في آن واحد. في هذا السياق، نقدم بيئة التعلم NetHack (NLE)، وهي بيئة قابلة للتوسع وتوليد إجرائي وعشوائية وغنية وصعبة لبحوث التعلم التعزيزي، تستند إلى اللعبة الشهيرة NetHack التي هي لعبة Roguelike قائمة على الطرفية وموجهة للاعب الفردي. نعتقد أن NetHack معقدة بما يكفي لتحفيز البحث طويل المدى حول مشاكل مثل الاستكشاف والتخطيط وتحصيل المهارات والتعلم التعزيزي المشروط باللغة، بينما تقلل بشكل كبير من الموارد الحاسوبية المطلوبة لجمع كمية كبيرة من الخبرات. نقارن بين NLE ومجموعة مهامها وبين البديلات الموجودة، ونناقش أسباب كونها الوسيط المثالي لاختبار متانة وكالات التعلم التعزيزي وتعميمها النظامي. نظهر النجاح التجريبي للأطوار الأولى من اللعبة باستخدام أساس موزع للتعلم العميق التعزيزي واستكشاف تقطير الشبكة العشوائية، بالإضافة إلى تحليل نوعي لكالات مختلفة تم تدريبها في هذه البيئة. Bيئة NLE مفتوحة المصدر على الرابط https://github.com/facebookresearch/nle.