لا تيأس أبدًا: تعلّم استراتيجيات استكشاف موجهة

نُقدّم وكيلًا يعتمد على التعلم التعزيزي لحل ألعاب الاستكشاف الصعبة من خلال تعلّم طرق استكشاف موجهة متنوعة. نُنشئ مكافأة داخلية تعتمد على الذاكرة الدورية باستخدام أقرب جيران (k-nearest neighbors) على تجربة الوكيل الحديثة، بهدف تدريب السياسات الموجهة للاستكشاف، مما يشجّع الوكيل على العودة بشكل متكرر إلى جميع الحالات في بيئة العمل. نستخدم نموذجًا ديناميكيًا عكسيًا ذاتي التدريب (self-supervised inverse dynamics model) لتدريب تمثيلات (embeddings) البحث عن أقرب جيران، مما يُوجّه إشارة الأصالة نحو ما يستطيع الوكيل التحكّم فيه. نطبّق إطار عمل مُقرّرات دالة القيمة الشاملة (Universal Value Function Approximators - UVFA) لتعلم العديد من السياسات الموجهة للاستكشاف في آن واحد باستخدام نفس الشبكة العصبية، مع توازنات مختلفة بين الاستكشاف والاستغلال. وباستخدام نفس الشبكة العصبية لدرجات مختلفة من الاستكشاف والاستغلال، نُظهِر عملية نقل (transfer) من السياسات المُهيمنة على الاستكشاف إلى سياسات فعّالة في الاستغلال. يمكن دمج الطريقة المقترحة مع وكيلات التعلم التعزيزي الحديثة الموزعة، التي تجمع كمًّا كبيرًا من التجارب من عدد كبير من الوكلاء العاملة بالتوازي على مثيلات بيئة منفصلة. تضاعف الطريقة المقترحة أداء الوكيل الأساسي في جميع ألعاب الاستكشاف الصعبة ضمن مجموعة Atari-57، مع الحفاظ على أداء عالٍ جدًا في الألعاب المتبقية، حيث تصل إلى متوسط درجة مُعادلة للإنسان بنسبة 1344.0%. وبشكل مميّز، تُعدّ الطريقة المقترحة أول خوارزمية تحقق مكافآت غير صفرية (بمتوسط درجة 8400) في لعبة Pitfall! دون استخدام توجيهات (demonstrations) أو ميزات مصممة يدويًا.