HyperAIHyperAI
منذ 17 أيام

الاستخلاص التلقائي للشبكة: نهج فعّال لاستكشاف بيئات المكافآت النادرة

Matej Pecháč, Michal Chovanec, Igor Farkaš
الاستخلاص التلقائي للشبكة: نهج فعّال لاستكشاف بيئات المكافآت النادرة
الملخص

يمكن لتعلم التقوية حل مشكلات اتخاذ القرار وتدريب الوكيل على التصرف في بيئة وفقًا لدالة مكافأة مُحددة مسبقًا. ومع ذلك، تصبح هذه الطريقة مشكلة كبيرة إذا كانت المكافأة نادرة جدًا، بحيث لا يلتقي الوكيل بها أثناء استكشاف البيئة. قد يكون الحل لهذه المشكلة هو تزويده بدافع داخلي يُمكّنه من استكشاف مُوجَّه، حيث يكون من المرجح أن يصادف المكافأة الخارجية أثناء هذه العملية. إن كشف التفرّد (Novelty detection) يُعدّ أحد الفروع الواعدة في بحوث الدوافع الداخلية. نقدم في هذا العمل خوارزمية "الاستخلاص الشبكي ذاتي التدريب" (SND)، وهي فئة من خوارزميات الدوافع الداخلية تعتمد على خطأ الاستخلاص كمؤشر على التفرّد، حيث يتم تدريب كل من نموذج المُقدِّر ونموذج الهدف معًا. وقد قمنا بتعديل ثلاث طرق ذاتية التدريب موجودة مسبقًا لهذا الغرض، وتم اختبارها تجريبيًا على مجموعة من عشرة بيئات يُنظر إليها على أنها صعبة الاستكشاف. تُظهر النتائج أن نهجنا يحقق نموًا أسرع ومستويات أعلى من المكافأة الخارجية خلال نفس فترة التدريب مقارنةً بالنماذج الأساسية، مما يدل على تحسين الاستكشاف في بيئات ذات مكافآت نادرة جدًا. علاوةً على ذلك، توفر الأساليب التحليلية التي استخدمناها رؤى تفسيرية قيمة حول النماذج المقترحة.