HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف القائم على العد مع التمثيل اللاحق

Marlos C. Machado Marc G. Bellemare Michael Bowling

الملخص

في هذا البحث، نقدم نهجًا بسيطًا للاستكشاف في تعلم التعزيز (RL) يتيح لنا تطوير خوارزميات مبررة نظريًا في الحالة الجدولية ولكن يمكن أيضًا توسيعها إلى بيئات تتطلب تقريب الدوال. يعتمد نهجنا على التمثيل اللاحق (SR)، والذي تم تقديمه أصلًا كتمثيل يحدد التعميم بين الحالات من خلال تشابه الحالات اللاحقة. هنا، نوضح أن معيار التمثيل اللاحق (SR)، أثناء تعلمه، يمكن استخدامه كمكافأة إضافية لتحفيز الاستكشاف. للفهم الأفضل لهذا السلوك المؤقت لمعيار التمثيل اللاحق (SR)، نقدم التمثيل اللاحق شبه العشوائي (SSR) ونوضح أنه يعد ضمنيًا عدد المرات التي تم فيها مشاهدة كل حالة (أو ميزة). نستخدم هذا النتيجة لتقديم خوارزمية تعمل بنفس جودة بعض النماذج النظرية ذات الكفاءة العينوية العالية. أخيرًا، نوسع هذه الأفكار إلى خوارزمية تعلم تعزيز عميقة ونوضح أنها تحقق أداءً رائدًا في ألعاب Atari 2600 عند العمل في نظام ذي تعقيد عينوي منخفض.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp