HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم القيم عبر عدة أوامر من العظمى

Hado van Hasselt Arthur Guez Matteo Hessel Volodymyr Mnih David Silver

الملخص

معظم خوارزميات التعلم ليست ثابتة بالنسبة لمقياس الدالة التي يتم تقريبها. نقترح تطبيع الأهداف المستخدمة في التعلم بشكل متكيف. هذا مفيد في التعلم المعزز القائم على القيمة، حيث يمكن أن تتغير قيمة التقريبات المناسبة بمرور الوقت عند تحديث سياسة السلوك. دوافعنا الرئيسية هي الأعمال السابقة حول تعلم لعب ألعاب آتاري، حيث تم قص جميع المكافآت إلى نطاق محدد مسبقًا. يسهل هذا القص عملية التعلم عبر العديد من الألعاب المختلفة باستخدام خوارزمية تعلم واحدة، ولكن يمكن أن يؤدي وظيفة المكافأة المقتصة إلى سلوك كميًا مختلف. باستخدام التطبيع المتكيف، يمكننا إزالة هذه الاستدلال الخاصة بالمنطقة دون الحد من الأداء العام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تعلم القيم عبر عدة أوامر من العظمى | مستندات | HyperAI