العميل-النقد المُتعدد السياسات مع إعادة تجربة تجربة مشتركة

نُجري دراسة لدمج خوارزميات التعلم القائم على التقييم والتحفيز (actor-critic) مع إعادة تجربة كبيرة ومتجانسة، ونُقدّم حلولاً لتحديين رئيسيين: (أ) تعلم فعّال لخوارزميات التقييم والتحفيز باستخدام إعادة التجربة، و(ب) استقرار التعلم غير المباشر (off-policy) حيث تتعلم الوكلاء من سلوك وكلاء آخرين. ونستفيد من هذه الرؤى لتسريع عمليات مسح معلمات الفائقة (hyper-parameter sweeps)، حيث تعمل جميع الوكلاء المشاركة بالتوازي وتشترك في تجاربها من خلال وحدة إعادة تجربة مشتركة. ولتحقيق ذلك، نُحلّل توازن التحيّز-الانحراف (bias-variance tradeoffs) في خوارزمية V-trace، وهي شكل من أشكال أخذ العينات المهمة (importance sampling) المستخدمة في خوارزميات التقييم والتحفيز. بناءً على هذا التحليل، نُقدّم حجّة لدمج التجارب المستمدة من إعادة التجربة مع التجارب التي تُجمع أثناء العمل (on-policy)، ونُقترح نموذجًا جديدًا لمنطقة الثقة (trust region) يتميز بقدرته على التوسع بكفاءة في توزيعات البيانات التي تصبح فيها خوارزمية V-trace غير مستقرة. ونُقدّم تحققًا تجريبيًا واسع النطاق للحل المقترح. كما نُظهر فوائد هذا الإطار من خلال إثبات كفاءة بيانات متميزة على منصة Atari، حيث تم تدريب الوكلاء حتى الوصول إلى 200 مليون إطار بيئي.