التعلم التعميقي عبر الإنترنت والخارج الإنترنت من خلال التخطيط باستخدام نموذج مُدرَّب

يُعد التعلّم بكفاءة من كميات صغيرة من البيانات موضوعًا رئيسيًا في تعلم التحكم القائم على النماذج، سواء في الحالة الزمنية الحقيقية (online) أثناء التفاعل مع البيئة، أو في الحالة الثابتة (offline) عند التعلّم من مجموعة بيانات ثابتة. ومع ذلك، حتى الآن لم تُظهر أي خوارزمية موحدة واحدة نتائج متميزة على مستوى الحالة المتطورة في كلا الحالتين. في هذا العمل، نُقدّم خوارزمية Reanalyse التي تستخدم مشغلات تحسين السياسة والقيمة القائمة على النماذج لحساب أهداف تدريب مُحسَّنة جديدة على نقاط البيانات الحالية، مما يمكّن من التعلّم بكفاءة في نطاقات ميزانية بيانات تمتد على عدة رتب من الترتيب. ونُظهر أيضًا أن خوارزمية Reanalyse يمكن استخدامها للتعلّم بالكامل من خلال أمثلة (demonstrations) دون الحاجة إلى أي تفاعل مع البيئة، كما هو الحال في تعلم التحكم بدون اتصال (offline RL). وبدمج Reanalyse مع خوارزمية MuZero، نقدّم MuZero Unplugged، وهي خوارزمية موحدة واحدة قادرة على العمل بكفاءة بأي ميزانية بيانات، بما في ذلك تعلم التحكم بدون اتصال. على عكس الدراسات السابقة، لا تتطلب خوارزميتنا أي تعديلات خاصة للسياقات غير المتماثلة (off-policy) أو لتعلم التحكم بدون اتصال. وتُسجّل MuZero Unplugged نتائج جديدة على مستوى الحالة المتطورة في معيار تعلم التحكم بدون اتصال RL Unplugged، وكذلك في معيار تعلم التحكم الزمني الحقيقي على أجهزة Atari في الإعداد القياسي البالغ 200 مليون إطار.