HyperAIHyperAI
منذ 2 أشهر

استكشاف مبني على العد في فضاء الميزات للتعلم التعزيزي

Jarryd Martin; Suraj Narayanan Sasikumar; Tom Everitt; Marcus Hutter
استكشاف مبني على العد في فضاء الميزات للتعلم التعزيزي
الملخص

نقدم خوارزمية استكشاف متفائلة جديدة تعتمد على العد لتعلم التعزيز (RL) والتي يمكن تطبيقها في بيئات ذات فضاءات حالة-فعل متعددة الأبعاد. نجاح خوارزميات التعلم بالتعزيز في هذه المجالات يعتمد بشكل حاسم على التعميم من تجربة تدريب محدودة. تقنيات تقريب الدالة تمكن الوكلاء (الروبوتات) من التعلم بالتعزيز من التعميم لتقييم قيمة الحالات غير المكتشفة، ولكن حالياً هناك قليل من الطرق التي تتيح التعميم فيما يتعلق بالشكوك. هذا قد حال دون الجمع بين خوارزميات التعلم بالتعزيز القابلة للتوسع واستراتيجيات الاستكشاف الفعالة التي تحث الوكيل على تقليل شكوكه. نعرض طريقة جديدة لحساب عدد زيارات الحالة المعممة، مما يسمح للوكيل بتقدير الشكوك المرتبطة بأي حالة. يحقق عد الـ ϕ-المزيف (ϕ-pseudocount) التعميم عن طريق استغلال نفس تمثيل الخاصية المستخدم لتقريب دالة القيمة. تعتبر الحالات التي تحتوي على خصائص أقل مشاهدة أكثر عدم اليقين. تقوم خوارزمية مكافأة استكشاف الـ ϕ (ϕ-Exploration-Bonus) بمكافأة الوكيل على الاستكشاف في فضاء الخاصية بدلاً من فضاء الحالة غير المحول. الطريقة أبسط وأقل كلفة حاسوبية من بعض المقترحات السابقة، وتحقق نتائج قريبة من أفضل النتائج في مقاييس التعلم بالتعزيز ذات الأبعاد العالية.