منذ 7 أشهر

الملخص

نقدم خوارزمية استكشاف متفائلة جديدة تعتمد على العد لتعلم التعزيز (RL) والتي يمكن تطبيقها في بيئات ذات فضاءات حالة-فعل متعددة الأبعاد. نجاح خوارزميات التعلم بالتعزيز في هذه المجالات يعتمد بشكل حاسم على التعميم من تجربة تدريب محدودة. تقنيات تقريب الدالة تمكن الوكلاء (الروبوتات) من التعلم بالتعزيز من التعميم لتقييم قيمة الحالات غير المكتشفة، ولكن حالياً هناك قليل من الطرق التي تتيح التعميم فيما يتعلق بالشكوك. هذا قد حال دون الجمع بين خوارزميات التعلم بالتعزيز القابلة للتوسع واستراتيجيات الاستكشاف الفعالة التي تحث الوكيل على تقليل شكوكه. نعرض طريقة جديدة لحساب عدد زيارات الحالة المعممة، مما يسمح للوكيل بتقدير الشكوك المرتبطة بأي حالة. يحقق عد الـ ϕ-المزيف (ϕ-pseudocount) التعميم عن طريق استغلال نفس تمثيل الخاصية المستخدم لتقريب دالة القيمة. تعتبر الحالات التي تحتوي على خصائص أقل مشاهدة أكثر عدم اليقين. تقوم خوارزمية مكافأة استكشاف الـ ϕ (ϕ-Exploration-Bonus) بمكافأة الوكيل على الاستكشاف في فضاء الخاصية بدلاً من فضاء الحالة غير المحول. الطريقة أبسط وأقل كلفة حاسوبية من بعض المقترحات السابقة، وتحقق نتائج قريبة من أفضل النتائج في مقاييس التعلم بالتعزيز ذات الأبعاد العالية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Jarryd Martin; Suraj Narayanan Sasikumar; Tom Everitt; Marcus Hutter

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jarryd Martin; Suraj Narayanan Sasikumar; Tom Everitt; Marcus Hutter

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jarryd Martin; Suraj Narayanan Sasikumar; Tom Everitt; Marcus Hutter

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استكشاف مبني على العد في فضاء الميزات للتعلم التعزيزي

Jarryd Martin; Suraj Narayanan Sasikumar; Tom Everitt; Marcus Hutter

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استكشاف مبني على العد في فضاء الميزات للتعلم التعزيزي

Jarryd Martin; Suraj Narayanan Sasikumar; Tom Everitt; Marcus Hutter

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استكشاف مبني على العد في فضاء الميزات للتعلم التعزيزي

Jarryd Martin; Suraj Narayanan Sasikumar; Tom Everitt; Marcus Hutter

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters