HyperAIHyperAI

Command Palette

Search for a command to run...

العميل-النقد المُتعدد السياسات مع إعادة تجربة تجربة مشتركة

Simon Schmitt Matteo Hessel Karen Simonyan

الملخص

نُجري دراسة لدمج خوارزميات التعلم القائم على التقييم والتحفيز (actor-critic) مع إعادة تجربة كبيرة ومتجانسة، ونُقدّم حلولاً لتحديين رئيسيين: (أ) تعلم فعّال لخوارزميات التقييم والتحفيز باستخدام إعادة التجربة، و(ب) استقرار التعلم غير المباشر (off-policy) حيث تتعلم الوكلاء من سلوك وكلاء آخرين. ونستفيد من هذه الرؤى لتسريع عمليات مسح معلمات الفائقة (hyper-parameter sweeps)، حيث تعمل جميع الوكلاء المشاركة بالتوازي وتشترك في تجاربها من خلال وحدة إعادة تجربة مشتركة. ولتحقيق ذلك، نُحلّل توازن التحيّز-الانحراف (bias-variance tradeoffs) في خوارزمية V-trace، وهي شكل من أشكال أخذ العينات المهمة (importance sampling) المستخدمة في خوارزميات التقييم والتحفيز. بناءً على هذا التحليل، نُقدّم حجّة لدمج التجارب المستمدة من إعادة التجربة مع التجارب التي تُجمع أثناء العمل (on-policy)، ونُقترح نموذجًا جديدًا لمنطقة الثقة (trust region) يتميز بقدرته على التوسع بكفاءة في توزيعات البيانات التي تصبح فيها خوارزمية V-trace غير مستقرة. ونُقدّم تحققًا تجريبيًا واسع النطاق للحل المقترح. كما نُظهر فوائد هذا الإطار من خلال إثبات كفاءة بيانات متميزة على منصة Atari، حيث تم تدريب الوكلاء حتى الوصول إلى 200 مليون إطار بيئي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
العميل-النقد المُتعدد السياسات مع إعادة تجربة تجربة مشتركة | مستندات | HyperAI