HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف مبني على العد في فضاء الميزات للتعلم التعزيزي

Jarryd Martin; Suraj Narayanan Sasikumar; Tom Everitt; Marcus Hutter

الملخص

نقدم خوارزمية استكشاف متفائلة جديدة تعتمد على العد لتعلم التعزيز (RL) والتي يمكن تطبيقها في بيئات ذات فضاءات حالة-فعل متعددة الأبعاد. نجاح خوارزميات التعلم بالتعزيز في هذه المجالات يعتمد بشكل حاسم على التعميم من تجربة تدريب محدودة. تقنيات تقريب الدالة تمكن الوكلاء (الروبوتات) من التعلم بالتعزيز من التعميم لتقييم قيمة الحالات غير المكتشفة، ولكن حالياً هناك قليل من الطرق التي تتيح التعميم فيما يتعلق بالشكوك. هذا قد حال دون الجمع بين خوارزميات التعلم بالتعزيز القابلة للتوسع واستراتيجيات الاستكشاف الفعالة التي تحث الوكيل على تقليل شكوكه. نعرض طريقة جديدة لحساب عدد زيارات الحالة المعممة، مما يسمح للوكيل بتقدير الشكوك المرتبطة بأي حالة. يحقق عد الـ ϕ-المزيف (ϕ-pseudocount) التعميم عن طريق استغلال نفس تمثيل الخاصية المستخدم لتقريب دالة القيمة. تعتبر الحالات التي تحتوي على خصائص أقل مشاهدة أكثر عدم اليقين. تقوم خوارزمية مكافأة استكشاف الـ ϕ (ϕ-Exploration-Bonus) بمكافأة الوكيل على الاستكشاف في فضاء الخاصية بدلاً من فضاء الحالة غير المحول. الطريقة أبسط وأقل كلفة حاسوبية من بعض المقترحات السابقة، وتحقق نتائج قريبة من أفضل النتائج في مقاييس التعلم بالتعزيز ذات الأبعاد العالية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp