HyperAIHyperAI

Command Palette

Search for a command to run...

دراسة واسعة النطاق للتعلم المستند إلى الفضول

الملخص

خوارزميات التعلم بالتعزيز تعتمد على تصميم دقيق للمكافآت البيئية التي تكون خارجية بالنسبة للوكيل. ومع ذلك، فإن وضع مكافآت كثيفة ومصممة يدويًا لكل بيئة ليس قابلًا للتوسع، مما يحفز الحاجة إلى تطوير وظائف مكافأة تكون داخلية بالنسبة للوكيل. الفضول هو نوع من وظائف المكافأة الداخلية التي تستخدم خطأ التنبؤ كإشارة مكافأة. في هذا البحث:(أ) نقوم بأول دراسة واسعة النطاق لتعلم محركه بالفضول تمامًا، أي بدون أي مكافآت خارجية، عبر 54 بيئة مقاييس قياسية، بما في ذلك مجموعة ألعاب Atari. تظهر نتائجنا أداءً مفاجئًا جيدًا، ودرجة عالية من التطابق بين الهدف الداخلي للفضول والمكافآت الخارجية المصممة يدويًا لبيئات العديد من الألعاب.(ب) ندرس تأثير استخدام فضاءات ميزات مختلفة لحساب خطأ التنبؤ ونظهر أن الميزات العشوائية تكون كافية لمعظم المقاييس القياسية لألعاب التعلم بالتعزيز الشائعة، ولكن الميزات المستفادة تبدو أنها تعمم بشكل أفضل (مثل إلى مستويات جديدة في لعبة Super Mario Bros (سوبر ماريو بروس)).(ج) نوضح حدود المكافآت القائمة على التنبؤ في الإعدادات العشوائية. يمكن الوصول إلى مقاطع الفيديو الخاصة بلعب الألعاب والكود في https://pathak22.github.io/large-scale-curiosity/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp