التحكم بالسلوك القابل للتعلم: كسر أرقام العالم البشري في أتاري عبر اختيار سلوك فعّال من حيث العينات

مشكلة الاستكشاف تمثل واحدة من التحديات الرئيسية في التعلم التعميقي المعزز (RL). حاولت أعمال حديثة واعدة معالجة هذه المشكلة باستخدام أساليب قائمة على السكان، والتي تجمع عينات ذات سلوكيات متنوعة مستمدة من مجموعة من السياسات الاستكشافية المختلفة. وقد تم اعتماد اختيار السياسات التكيفية للتحكم في السلوك. ومع ذلك، يظل مجال اختيار السلوك محدودًا إلى حد كبير بالسكان المُحدَّد مسبقًا من السياسات، مما يحد من تنوع السلوك بشكل متزايد. في هذا البحث، نقترح إطارًا عامًا يُسمى التحكم القابِل للتعلم في السلوك (LBC) لمعالجة هذا التحدي، حيث يُمكّن من: أ) توسيع نطاق اختيار السلوك بشكل كبير من خلال صياغة خريطة سلوكية مختلطة مستمدة من جميع السياسات؛ ب) بناء عملية موحدة قابلة للتعلم لاختيار السلوك. تم دمج LBC في طرق موزعة من نوع Actor-Critic غير المُتَعَلِّمَة (off-policy)، وتم تحقيق التحكم في السلوك من خلال تحسين اختيار خرائط السلوك باستخدام متحكمات ماكروية تعتمد على نموذج المباريات (bandit-based meta-controllers). وقد حقق Agents لدينا متوسط تقييم مُعدّل بالنسبة للإنسان بلغ 10077.52%، وتجاوزوا 24 سجلًا عالميًا للإنسان ضمن 1 مليار إطار تدريب في بيئة التعلم(arcade)، مما يُظهر أداءً متميزًا للغاية (SOTA) بشكل ملحوظ دون التأثير على كفاءة استخدام العينات.